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内 容 提 要 


算法 详解 系列 图 书 共有 4 卷 , 本 书 是 第 2 卷 一 一 图 算法 和 数据 结构 。 本 书 共 
有 6 章 , 主要 介绍 了 3 个 主题 , 分 别 是 图 的 搜索 和 应 用 、 最短 路径 以 及 数据 结构 。 
附录 简单 回顾 了 渐进 性 表示 法 。 本 书 的 每 一 章 均 有 小 测验 、 章 末 习 题 , 这 为 读者 
的 自我 检查 以 及 进一步 学 习 提 供 了 方便 。 

本 书 提供 了 丰富 而 实用 的 资料 , 能 够 帮助 读者 提升 算法 思维 能 力 。 本 书 适合 
计算 机 专业 的 高 校 教师 和 学 生 ， 想 要 培养 和 训练 算法 思维 和 计算 思维 的 IT 专业 
人 士 ， 以 及 正在 准备 面试 的 应 聘 者 和 面试 官 阅读 参考 。 
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本 书 是 在 我 的 在 线 算法 课程 基础 之 上 编写 的 ， 是 4 卷 本 系列 的 第 2 卷 ， 第 
1 卷 是 《算法 详解 ( 卷 1) 算法 基础 》。 这 个 在 线 课程 2012 年 起 就 定期 发 布 ， 
它 建立 在 我 在 斯 坦 福 大 学 讲授 多 年 的 本 科 课 程 的 基础 之 上 。 这 个 系列 的 卷 1 并 不 
是 阅读 卷 2 的 先决 要 求 ， 任 何 符合 下 面 “ 本 书 的 目标 读者 ”中 所 描述 背景 并 熟悉 
渐进 性 表示 法 《附录 对 这 个 主题 进行 了 回顾 ) 的 读者 均 适 合 阅读 本 书 。 


















































































































































本 书 涵盖 的 内 容 
本 书 介绍 了 下 面 3 个 主题 的 基础 知识 。 
图 的 搜索 和 应 用 

















图 可 用 于 对 许多 不 同类 型 的 网 络 包括 道路 网 、 通 信 网 络 、 社 交 网 络 ， 以 及 
多 任务 之 间 的 依赖 性 网 络 ) 进行 建 模 。 图 可 能 非常 复杂 ， 但 图 存在 一 些 运算 速度 
非常 快 的 基本 算法 。 我 们 首先 讨论 对 图 进行 搜索 的 线性 算法 。 该 算法 应 用 范围 极 
广 ， 包 括 网 络 分 析 以 及 任务 序列 化 等 。 


最 短路 径 

最 短路 径 问题 的 目标 是 计算 网 络 中 从 点 A 到 点 B 的 最 佳 路 线 。 这 个 问题 具 
有 一 些 显而易见 的 应 用 ， 例 如 计算 行车 路 线 等 。 许 多 更 为 通用 的 规划 问题 的 本 质 
就 是 计算 最 短路 径 。 我 们 将 对 其 中 一 种 图 搜索 算法 进行 归纳 ， 进 而 引出 著名 的 
Dijkstra 最 短路 径 算 法 。 

数据 结构 

本 书 将 帮助 读者 熟悉 几 种 不 同 的 数据 结构 ， 它 们 用 于 维护 不 断 变化 的 具有 键 
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了 
KK 

















的 对 象 集 合 。 我 们 的 基本 目标 是 培养 一 种 能 力 ， 也 就 是 能 够 判断 哪 种 数据 结构 比 
较 适合 自己 的 应 用 。 选读 的 高 级 章节 为 如 何 从 头 实现 这 些 数据 结构 提供 了 一 些 指 
































导 方 针 。 


























我 们 首先 讨论 堆 ， 它 可 以 快速 识别 它 所 存储 对 象 中 











适用 于 排序 、 实 现 优先 队列 以 及 以 线性 时 间 实 现 Dijkstra 
































有 最 小 键 值 的 对 象 ， 
算法 等 场景 。 搜 索 树 








可 以 维护 它 所 存储 对 象 的 整体 键 顺 序 ， 并 支 持 更 丰富 的 数组 操作 。 散 列表 对 




















超级 快速 的 查找 方式 进行 了 优化 ， 在 现代 程序 中 具有 极 























其 广泛 的 应 用 。 我 们 


还 将 讨论 布 隆 过 滤器 ， 它 是 散 列 表 的 “近亲 ”。 布 隆 过 滤器 的 空间 需求 比 散 列 





表 的 低 ， 但 它 偶 尔 会 出 现 错误 。 





关于 本 书 内 容 的 更 详细 介绍 ， 可 以 阅读 每 章 的 “本 章 要 点 ” 它 对 每 一 章 的 
























































内 容 ， 特 别 是 那些 重要 的 概念 进行 了 总 结 。 书 中 带 星 号 的 章 





节 。 时 间 较 为 紧张 的 读者 在 第 一 遍 阅读 时 可 以 跳 过 这 些 章节 ， 





阅读 的 连续 性 。 


“算法 详解 ”系列 其 他 几 卷 所 涵盖 的 主题 








节 是 难度 较 高 的 章 
这 并 不 会 影响 本 书 












































法 基础 》 讨 论 了 





“算法 详解 ”系列 图 书 的 第 1 卷 《算法 详解 〈 卷 1) 









































渐进 性 表示 法 (大 O 表示 法 以 及 相关 表示 法 )， 分 治 算法 和 3 



































FE 方法 ， 随 机 化 的 











QuickSort 及 其 分 析 以 及 线性 时 间 的 选择 算法 。“ 算 法 详解 ”系列 图 书 的 第 3 卷 重 
































点 讨论 了 贪 焚 算 法 (调度 、 最 小 生成 树 、 集群 、 霍 夫 曼 编码 ) 和 动态 编程 (背包 、 




















序列 对 齐 、 最 短路 径 、 最 佳 搜索 树 等 )。“ 算 法 详解 ”系列 图 书 的 第 4 卷 则 介绍 NP 
完整 性 及 其 对 算法 设计 师 的 意义 ,还 讨论 了 处 理 难 解 的 计算 问题 的 一 些 策略 , 包括 
































对 试探 法 和 局 部 搜索 的 分 析 。 
读者 的 收获 

精通 算法 需要 大 量 的 时 间 和 精力 ， 那 为 什么 要 学 习 人 和 
成 为 更 优秀 的 程序 员 
























































法 





读者 将 学 习 一 些 令 人 炫目 的 用 于 处 理 数 据 的 高 速 子 程序 以 及 一 些 实 用 的 数 


























据 结 构 ， 它 们 用 于 组 织 数据 ， 可 以 直接 部 署 到 自己 的 程序 中 。 实 现 和 使 用 这 些 算 
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法 将 扩展 并 提高 读者 的 编程 技巧 。 读 者 还 将 学 习 基 本 的 算法 设计 范式 ， 它 们 与 许 
多 不 同 领域 的 不 同 问题 密切 相关 ， 并 且 可 以 作为 预测 算法 性 能 的 工具 。 这 些 
“算法 设计 模式 ”可 以 帮助 读者 为 自己 碰 到 的 问题 设计 新 算法 。 

加 强 分 析 技 巧 

读者 将 获得 大 量 对 算法 进行 描述 和 推导 的 实践 机 会 。 通 过 数学 分 析 ， 读 者 将 
对 “算法 详解 ”系列 图 书 所 涵盖 的 特定 算法 和 数据 结构 产生 深刻 的 理解 。 读 者 还 
将 掌握 一 些 广泛 用 于 算法 分 析 的 实用 数学 技巧 。 

形成 算法 思维 
在 学 习 了 算法 之 后 ， 很 难 发 现 有 什么 地 方 没有 它们 的 踪影 。 无 论 是 坐 电梯 、 
观察 鸟 群 ， 还 是 管理 自己 的 投资 组 合 ， 甚 至 是 观察 婴儿 的 认 知 ， 算 法 思维 如 影 
随 形 。 算 法 思维 在 计算 机 科学 之 外 的 领域 ,包括 生物 学 、 统 计 学 和 经 济 学 ， 越 
来 越 实 用 。 

融入 计算 机 科学 家 的 圈子 
研究 算法 就 像 是 观看 计算 机 科学 最 近 60 年 发 展 的 精彩 剪辑 。 当 读者 参加 一 
场 计算 机 科学 界 的 鸡尾酒 会 , 会 上 有 人 讲 了 一 个 关于 Dijkstra 算法 的 笑话 时 ， 你 
就 不 会 感觉 自己 被 排除 在 这 个 圈子 之 外 了 。 在 阅读 了 本 系列 图 书 之 后 ， 读 者 将 了 
解 许 多 这 方面 的 知识 。 

在 技术 访谈 中 脱颖而出 
在 过 去 这 些 年 里 ， 有 很 多 学 生 向 我 讲述 了 “算法 详解 ”系列 图 书 是 怎样 帮助 
他 们 在 技术 访谈 中 大 放 异 彩 的。 
其 他 算法 教材 

“算法 详解 ”系列 图 书 只 有 一 个 目标 : 尽 可 能 以 读者 容易 接受 的 方式 介绍 
法 的 基础 知识 。 读 者 可 以 把 本 书 看 成 是 专家 级 算法 教师 的 课程 记录 ， 老 师 以 课程 
的 形式 传道 解 惑 。 
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为 传统 、 全 面 的 算法 教材 ， 它 们 都 可 以 作为 








世 
ID 
KK 












































探索 和 寻找 自己 喜欢 的 其 他 教材 。 另 外 ， 还 有 





























“算法 详解 ”系列 关于 算法 的 其 他 细节 、 问 题 和 主题 的 有 益 补充 。 我 鼓励 读者 
些 图 


的 出 发 点 有 所 不 同 ， 它 











们 偏向 于 站 在 程序 员 的 角度 寻找 一 种 特定 编程 语言 的 成 熟 





























在 大 量 免费 的 这 类 算法 的 实现 。 


本 书 的 目标 读者 









































法 实现 。 网 络 中 存 




















“算法 详解 ”系列 图 书 以 及 作为 其 基础 的 在 线 课程 的 整体 目标 是 尽 可 能 地 扩 



































展 读者 群体 的 范围 。 学 习 我 的 在 线 课 程 的 人 具有 不 同 的 年 龄 、 















































括 现在 的 和 未 来 的 )、 科 学 家 和 专业 人 员 。 








有 大 量 来 自 全 世界 各 个 角落 的 学 生 《〈 包 括 高 








背景 、 生 活 方式 ， 











Ph 生 、 大 学 生 等 )、 软 件 工程 师 〈 包 





本 书 并 不 是 讨论 编程 的 ， 理 想 情 况 下 读者 至 少 应 该 熟悉 一 种 标准 编程 语言 
(例如 Java、Python、C、Scala、Haskell 等 ) 并 掌握 了 基本 的 编程 技巧 。 作 为 一 

















个 立竿见影 的 试验 ， 读 者 可 以 试 着 阅读 2.2 节 。 如 果 读 者 觉 
么 看 懂 本 书 的 其 他 部 分 应 该 也 是 没有 问题 的 。 如 果 读 者 想 要 j 
那么 可 以 学 习 一 些 非常 优秀 的 讲述 基础 编程 的 免费 好 





























得 自己 能 够 看 懂 ， 那 



































我 们 还 会 根据 需要 通过 数学 分 析 帮 助 i 
及 它 是 怎样 实现 目标 的 。Eric Lehman 和 Tom Leighton 关于 





















































是 高 自己 的 编程 技巧 ， 
读者 理解 算法 为 什么 能 够 实现 目标 以 









































计算 机 科学 的 数学 


知识 的 免费 课程 是 极为 优秀 的 ， 可 以 帮助 读者 复习 数学 记 法 (例如 > 和 v)、 数 学 
证 明 的 基础 知识 《归纳 、 悖 论 等 )、 离 散 概 率 等 更 多 知识 。 




















其 他 资源 


“算法 详解 ”系列 的 在 线 课 程 当前 运行 于 Coursera 和 Stanford Lagunita 平台 。 
另外 ， 还 有 一 些 资源 可 以 帮助 读者 根据 自己 的 意愿 提升 对 在 线 课程 的 体验 。 



































。 视频 。 如 果 读 者 觉得 相 比 阅 读 文字 ， 更 喜欢 听 和 看 ， 那 么 可 以 在 视频 网 









































> 





站 的 视频 播放 列表 中 观看 。 这 些 视频 涵盖 了 “算法 详解 ”系列 的 所 有 主 

















题 。 我 希望 它们 能 够 激发 读者 学 习 算法 的 持续 热情 。 





完全 取代 书 的 作用 。 
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当然 ， 它 们 并 不 能 





























。 小 测验 。 读 者 怎么 才能 知道 自己 是 


否 





Ge 
元 二 








里 解 


了 本 





所 讨论 的 概念 呢 ? 


散布 于 4 





书 的 小 测验 及 








答案 














容 的 理解 程度 。 另 外 ， 还 有 一 些 开放 怕 
未 包含 章 末 习题 的 所 有 答案 , 但 是 读者 可 以 通 


章 末 习题 。 





每 章 的 末 














妆 前 
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和 详细 解释 就 起 到 了 这 个 作用 。 当 读者 阅读 



























































与 作者 以 及 其 他 读者 进行 交流 。 














这 块 内 容 时 ， 最 好 能 够 停 下 来 认真 思考 ， 然 后 继续 阅读 接 下 来 的 内 容 。 
尾 都 有 一 些 相 对 简单 的 问题 , 用 于 测试 读者 对 该 章 内 
的 、 难 度 更 大 的 挑战 题 。 本 书 并 
过 本 书 的 论坛 〈 稍 后 提 及 ) 
其 目的 是 通过 创建 自己 


乡 




















的 算法 工作 程序 ， 来 增强 读者 对 
algorithmsilluminated.org 上 找到 数据 集 、 测 试 例 


论坛 。 在 线 课 





ij 程 题 。 许 多 章 的 最 后 是 一 个 建议 的 编程 项 目 ， 
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程 能 够 取 


























/fe 

















法 的 型 





E 解 。 





























读者 可 以 在 www. 
以 及 它们 的 答案 。 

成功 的 一 个 重要 原因 是 它们 为 
相 帮 助 的 机 会 ， 读 者 可 以 通过 论坛 讨论 课程 材料 和 调试 程序 。 本 系列 














参与 者 提供 了 互 
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资源 与 支持 


本 书 由 异步 社区 出 品 ， 社 区 (https://www.epubit.com/) 为 您 提供 相关 资源 和 
后 续 服务 。 














提交 勘误 


作者 和 编辑 尽 最 大 努力 来 确保 书 中 内 容 的 准确 性 , 但 难免 会 存在 玻 漏 。 欢 迎 
您 将 发 现 的 问题 反馈 给 我 们 ， 帮 助 我 们 提升 图 书 的 质量 
当 您 发 现 错误 时 ， 请 登录 异步 社区 ， 按 书 名 搜索 ， 进 入 本 书页 面 ， 点 击 “ 提 交 
勘误 ”， 输 入 勘误 人 信息， 点击“ 提交” 按钮 即 可 。 本 书 的 作者 和 编辑 会 对 您 提交 的 
勘误 进行 审核 ， 确 认 并 接受 后 ， 您 将 获 赠 异步 社区 的 100 积分 。 积 分 可 用 于 在 异步 












































































































































社区 兑换 优惠 券 、 样 书 或 奖品 。 





与 我 们 联系 


我 们 的 联系 邮箱 是 contact@epubit.com.cn。 

如 果 您 对 本 书 有 任何 疑问 或 建议 , 请 您 发 邮件 给 我 们 ， 并 请 在 邮件 标题 中 注 
明 本 书 书 名 ， 以 便 我 们 更 高 效 地 做 出 反馈 。 
如 果 您 有 兴趣 出 版 图 书 、 录 制 教学 视频 , 或 者 参与 图 书 翻译 、 技 术 审 校 等 工 
作 , 可 以 发 邮件 给 我 们 ;有 意 出 版 图 书 的 作者 也 可 以 到 异步 社区 在 线 提交 投稿 ( 直 
接 访 问 www.epubit.com/selfpublish/submission 即 可 )。 
如 果 您 是 学 校 、 培 训 机 构 或 企业 ， 想 批量 购买 本 书 或 异步 社区 出 版 的 其 他 图 
书 ， 也 可 以 发 邮件 给 我 们 。 
如 果 您 在 网 上 发 现 有 针对 异步 社区 出 品 图 书 的 各 种 形式 的 盗版 行为 , 包括 对 图 书 
全 部 或 部 分 内 容 的 非 授权 传播 , 请 您 将 怀疑 有 侵权 行为 的 链接 发 邮件 给 我 们 。 您 的 这 
一 举动 是 对 作者 权益 的 保护 ， 也 是 我 们 持续 为 您 提供 有 价值 的 内 容 的 动力 之 源 。 


























































































































































































































关于 异步 社区 和 异步 图 书 


“异步 社区 ”是 人 民 邮 电 出 版 社 旗 下 IT 专业 图 书社 区 ， 致 力 于 出 版 精品 IT 
技术 图 书 和 相关 学 习 产 品 ， 为 作 译 者 提供 优质 出 版 服务 。 异 步 社 区 创办 于 2015 
年 8 月 , 提供 大 量 精品 IT 技术 图 书 和 电子 书 , 以 及 高 品质 技术 文章 和 视频 课程 。 
更 多 详情 请 访问 异步 社区 官网 https:/www.epubit.com。 

“异步 图 书 ” 是 由 异步 社区 编辑 团队 策划 出 版 的 精品 IT 专业 图 书 的 品牌 ， 依 
托 于 人 民 邮 电 出 版 社 近 30 年 的 计算 机 图 书 出 版 积累 和 专业 编辑 团队 ， 相 关 图 书 
在 封面 上 印 有 异步 图 书 的 LOGO。 异 步 图 书 的 出 版 领域 包括 软件 开发 、 大 数据 、 
AI、 测 试 、 前 端 、 网 络 技术 等 。 
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第 1 章 © 


图 的 基础 知识 

















本 章 将 会 简单 地 介绍 图 的 概念 、 图 的 用 途 以 及 计算 机 程序 中 常见 的 图 表示 
形式 。 接 下 来 的 两 章 将 深入 讨论 一 些 著名 的 与 图 有 关 的 实用 算法 。 



































1.1 基本 术语 























提 到 “图 ”这 个 词 ， 我 们 很 自然 就 会 联想 到 x 轴 、y 轴 等 术语 ( 见 图 1.1(a))。 从 
算法 的 角度 来 说 ， 图 也 可 以 看 作成 对 的 对 象 之 间 的 关系 的 表现 形式 〈 见 图 1.1(b))。 















































— fn=n 

35| [fn=lognl] 

so 上 
E20l 

15| 

10r 

sl 

0 5 10 15 20 25 3 35 40 

(a) 图 (在 普通 情况 下 ) (b) 图 (在 算法 中 ) 











图 1.1 在 算法 中 ， 图 是 一 组 对 象 以 及 每 对 对 象 之 间 的 关系 
《例如 朋友 关系 ) 的 表现 形式 



































图 具有 两 个 组 成 部 分 : 
者 称 为 图 的 顶点 或 端点 。 
用 天 和 互 分 别 表示 图 





图 的 基础 知识 

















点 集 六 和 边 集 羽 。 











图 分 为 两 种 类 型 ， 
具有 极为 普遍 的 应 用 ， 
一 个 无 序 的 顶点 对 (vw), 其 
和 边 (w,v) 没 有 区 别 。 在 有 向 医 
个 顶点 v( 称 为 尾 ) 到 第 2 个 J 





的 顶点 集 和 边 集 ， 


[4 








每 一 

















图 所 表示 的 对 象 集合 以 及 每 一 对 对 象 之 间 
对 对 象 之 间 的 关系 可 以 看 成 是 图 的 边 。 


的 关系 。 前 
我 们 通常 














有 时 用 表达 式 G=(7,E) 表 示 



























































(a) 无 向 图 


种 是 有 向 图 ， 








另 一 种 是 无 向 图 。 这 两 种 类 型 的 























图 G 具有 项 

















而 





非常 重要 ， 











因此 我 们 应 该 同时 熟悉 这 两 种 图 。 在 无 向 图 中 ， 每 条 











中 v 和 w 是 这 条 边 的 端点 (图 1 2 在 无 向 



































w ( 称 为 站 ) 参见 攻 








1.2(b)。® 





(b) 有 向 图 























图 1.2 有 





4 个 顶点 和 5 条 边 的 图 (无 向 图 的 边 和 有 向 图 的 
































边 分 别 是 无 序 的 顶点 对 和 有 序 的 顶点 对 ) 


1.2 图 的 一 些 应 用 

















是 一 个 基本 概念 ， 














广泛 存在 于 计 
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道路 网 。 
搜索 ， 图 








的 无 数 应 











(D 同一 样 东西 ; 
这 两 个 名 称 。 





具有 两 个 名 称 





























@ 有 向 边 有 时 称 为 弧 ， 但 我 人 








当 手 机 的 导航 软件 计算 行驶 路 线 时 


中 的 一 些 例子 。 




















中 的 顶点 表示 道路 的 交汇 处 ， 
万 维 网 (World Wide Web )。 万 维 网 可 以 用 有 向 图 来 建 模 ， 


并 不 是 一 


在 本 系列 图 





中， 我 们 一 般 沿 
门 不 会 在 

















这 条 边 的 方向 是 从 入 


机 科学 、 生 物 学 、 社 会 学 和 经 济 学 


, 它 在 一 个 表示 道路 网 络 的 


边 对 应 于 
图 中 , 边 (v,w) 
第 1 








A 
等 领 





图 中 




















图 中 的 每 条 边 表 示 




















条 单独 的 道路 。 
其 中 的 顶点 对 应 














件 愉快 的 事情 , 但 这 两 个 术语 都 是 广泛 使 
“顶点 ”这 个 术语 。 
本 系列 图 书 中 使 用 这 个 术语 。 







































































的 , 因此 必须 同时 知道 

















1.3 图 形 的 度量 




















于 单个 的 Web 页 面 ， 边 对 应 于 超 链接 ， 边 的 方向 是 从 包含 超 链 接 的 页 面 到 目标 页 面 。 


社交 网 络 。 社 交 网 络 也 可 以 用 图 来 表示 ,其 中 顶点 对 应 于 个 人 ， 边 对 应 于 某 
种 类 型 的 关系 。 例如， 一 条 边 可 以 表示 它 的 两 个 顶点 为 朋友 关系 , 或 者 表示 其 中 
一 个 顶点 是 男 一 个 顶点 的 关注 者 。 在 当前 流行 的 社交 网 络 中 , 哪些 建 模 为 无 向 图 
更 为 自然 ? 哪些 建 模 为 有 向 图 更 为 自然 ? 两 者 都 有 一 些 有 趣 的 例子 。 

优先 级 约束 。 图 对 于 那些 缺少 明显 的 网 络 结构 的 问题 也 是 非常 适用 的 。 假 设 
我 们 必须 完成 一 组 受到 优先 级 约束 的 任务 ， 例 如 把 自己 看 成 是 大 学 一 年 级 的 新 
生 ， 计 划 按 照 某 种 顺序 学 习 几 门 课 程 。 解 决 这 种 问题 的 一 种 方法 是 把 本 书 2.5 节 
述 的 拓扑 排序 算法 应 用 于 下 面 这 种 图 : 每 个 顶点 表示 专业 要 求 的 一 门 课程 ， 从 
课程 A 到 课程 B 的 有 向 边 表示 学 完 课程 A 是 学 习 课程 B 的 先决 条 件 。 


































































































































































































































































































1.3 ”图 形 的 度量 























与 卷 1 一 样 , 在 本 书 中 , 我 们 用 输入 长 度 的 一 个 函数 来 分 析 不 同 算法 的 运行 
时 间 。 当 输入 是 单个 数组 时 《例如 在 排序 算法 中 )， 就 存在 一 种 很 明显 的 方式 来 
定义 “输入 长 度 ”， 即 数组 的 长 度 。 当 算法 的 输入 涉及 图 时 ， 就 必须 指定 图 的 表 
现形 式 ， 并 明确 它 的 “长 度 ” 的 含义 。 


1.3.1 图 的 边 数 量 


图 的 度量 是 由 两 个 参数 控制 的 , 分别 是 顶点 的 数量 和 边 的 数量 。 下面 是 这 两 
量 较 常 用 的 表示 方法 。 




























































































器 








人 











图 的 表示 法 
对 于 具有 顶点 集 三 和 边 集 已 的 图 C= (有 万 : 
1. n =| 表示 顶点 的 数量 ; 


2，m = | 加 表示 边 的 数量 。” 














Q@ 对 于 有 限 集 合 S，|S| 表 示 5 中 元 素 的 数量 。 
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0 


’ 





是 





“一 整 块 的 ”。 ?7 


(a) 1-1 和 一 一 


在 小 测验 1.1 中 ， 我 们 思考 无 向 图 中 边 的 数量 与 顶点 数量 的 依赖 关系 。 
我 们 假设 每 对 顶点 之 间 


。 我 们 还 假设 图 是 


图 是 日 “一 整 块 的 k 


部 分 。 





图 1.1(b) 和 轿 











n(n—1) 
2 


(b)n-1 和 nn 
(c)n 和 2” 
(d)n 和 nm” 





“连接 的 ”2.3 节 将 了 
































最 多 只 有 





没有 办 法 在 不 切断 任何 一 
1.2(a) 中 的 图 是 连接 的 ， 但 图 1.3 中 的 图 











一 条 无 向 边 ， 
E 式 定义 这 个 概念 。 
条 边 的 情况 下 把 











到 1.3” 非 连接 的 无 向 攻 


小 测验 1.1 


(正确 答案 和 详细 解释 参见 1.3.3 节 。) 









































考虑 一 个 具有 nn 个 顶点 并 且 没 有 平行 边 的 无 向 图 。 人 
这 个 图 最 少 有 几 条 边 ? 最 多 有 几 条 


不 允许 出 


对 
现 “平行 
连接 的 图 就 是 
图 分 割 为 两 个 


























是 非 连接 的 。 








1.3.2” 稀 跑 图 和 稠密 图 


在 小 测验 1.1 中 ， 


现在 ， 








为 有 些 


“数据 结构 和 入 


我 们 可 以 讨论 黎 玻 图 和 稠密 图 















































法 更 适用 了 























用 于 稠密 图 。 


我 们 已 经 看 到 了 图 的 边 数 是 如 何 根 据 顶 点 的 数量 变化 的 。 


之 间 的 区 别 。 它 们 的 区 别 是 非常 重要 的 ， 因 
稳 琉 图 ， 而 另 一 些 则 更 适 

















我 们 把 小 测验 1.1 的 答案 转换 为 渐进 性 表示 法 "。 首 先 ， 如 果 
顶点 的 无 向 图 是 连接 的 ， 那 么 边 的 数量 m 至 少 与 呈 线 怡 

















NY 1.3 

















图 形 的 度量 





























个 具有 个 

















FE 关系 《也 就 是 说 ， 





m= 人 2 (n))。” 其 次 ， 如 果 这 个 图 没有 平行 边 ， 那 么 m=O(n”)。“ 我们 可 以 总 结 为 : 


一 个 不 存在 平行 边 的 连接 无 向 图 的 边 数 是 在 顶点 数 的 线性 关系 与 
通俗 地 说 ， 如 
是 稀 朴 图 ; 如 果 边 的 数量 大 致 与 顶点 的 数量 呈 平 方 关 系 ， 那么 这 个 图 就 是 笛 





























果 边 的 数量 大 致 与 顶点 的 数量 呈 线 折 

















关系 ， 那 





























密 图 。 例 如 ， 具 有 个 顶点 和 O(n log nn) 条 边 的 图 一 般 被 认为 是 























稀疏 ”图 既 可 以 认为 是 稀疏 图 , 又 可 以 认为 是 稠密 图 , 取决 于 





边 的 数量 为 2 (xz2log nn) 的 图 
分 


























1.3.3 小 测验 1.1 的 答案 


正确 答案 : (a)。 在 一 个 具有 n 个 顶点 并 且 没 有 平行 边 的 连接 无 向 图 中 ， 边 












































的 数量 至 少 为 n-1 
以 图 G=(VE) 为 例 








从 顶点 集 六 和 0 条 边 开 始 。 首 9 





都 是 完全 隔离 的 ， 














F 方 关系 之 间 。 











么 这 个 图 就 

















稀疏 图 ， 而 








一 般 被 认为 是 稠密 图 , 边 的 数量 约 等 于 n” 的 “部 

















\ 体 的 应 用 。 




















， 最 多 为 n(n-1)2。 为 了 理解 这 个 下 界 为 什么 是 正确 的 ， 可 以 
。 作 为 一 种 理论 试验 ， 可 以 想象 在 创建 G 时 一 次 创建 一 条 边 ， 












































效果 就 是 把 包含 v 的 片段 与 包含 w 的 片段 融合 在 一 起 〈 见 图 1.4)。 











现 的 边 。 


@ 可 以 阅读 "算法 详 





至 少 需要 添加 n-1 条 边 。 有 大 
种 图 称 为 树 〈 见 图 1.5)。 


一 个 没有 平行 边 的 图 的 最 大 边 数 是 由 完全 





lu 


























E， 在 添加 任何 边 之 前 , 个 顶点 中 的 每 一 个 顶点 
因此 这 个 图 可 以 看 成 n 个 不 同 的 “片段 ”。 添加 一 条 边 (v,w) 的 


因此 ， 每 添 





加 一 条 边 ， 最 多 会 把 片段 的 数量 减少 1。 为 了 从 nn 个 片段 最 终 缩减 为 1 个 片段 ， 











是 























到 

















@ 如 果 这 个 图 并 不 需要 是 连接 的 ， 那 么 最 少 有 0 条 边 。 

















@ 如 果 允 许 平行 边 ， 





@ ”如 果 这 条 边 的 两 个 顶点 已 经 在 同一 个 片段 




















B 么 顶点 数量 不 少 于 2 的 图 的 边 数 可 以 是 任意 大 。 











的 连接 图 具有 z 个 顶点 3 





且 只 有 n 











1 条 边 ， 这 





解 ” 卷 1 的 附录 A， 回 顾 一 下 大 O、 大 8 和 大 @ 表示 法 。 


Ph， 那么 片段 的 数量 就 不 会 减少 。 


实现 的 ， 它 包含 了 每 一 条 可 能 出 
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[4 


人 sn 





加 











1.4 添加 一 


新 添加 的 边 











ee 





在 这 个 例子 中 ， 不 同 片段 的 数量 从 3 减少 为 


ee 


含 4 个 顶点 的 路 径 (b) 一 个 包含 4 个 顶点 的 星 形 


(a) 

















个 具有 n 个 顶点 





图 1.5 ”两 个 具 














的 图 共有 





有 4 个 顶点 和 3 条 边 的 无 向 图 


上 ?2@ 二 对 项 点 点 ， 该 值 也 是 边 的 最 大 数量 。 








例如 ， 当 n=4 时 ， 边 的 最 大 数量 是 | -= ( 见 图 1.6)。? 





© (] 的 划 是 “在 








现 











7 个 


|s 












































4 个 顶点 的 完全 国共 有 | ?=6 条 过 


选择 2 个 ”又 称 “ 二 项 式 系 数 ”。 为 了 理解 为 什么 从 一 组 n 个 对 象 中 选择 














一 对 不 同 的 无 序 对 象 的 方法 数量 是 2" 一 ， 可 以 考虑 选择 第 1 个 对 象 ( 从 n 个 选项 中 )， 然 后 选择 
2 





























第 2 个 对 象 ( 从 -1 个 剩余 选项 中 )。 者 
先 选 择 x， 然 后 选择 另 一 次 是 首先 选择 y， 然 后 选择 >)。 因 此， 不 同 的 顶点 对 数 就 是 xo- ) 。 


























FE 总共 n(n-1) 个 结果 中 ， 每 对 (x, y) 对 象 都 出 现 了 2 次 (一 次 是 




















NN 1.4 图 的 表示 方法 


1.4 图 的 表示 方法 






































我 们 可 以 采用 不 止 一 种 方法 对 图 进行 编码 ， 以 便 在 算法 中 使 用 。 


在 本 系列 图 书 中 ， 我 们 主要 采用 图 的 “邻接 列表 ”表示 形式 〈 见 1.4.1 节 )， 
但 读者 同时 也 应 该 熟悉 “邻接 矩阵 ”表示 形式 〈 见 1.4.2 节 )。 


1.4.1 ”邻接 列表 
图 的 邻接 列表 表示 形式 是 我 们 在 本 系列 图 书 中 采用 的 主要 形式 。 



















































































邻接 列表 的 组 成 部 分 
1， 一 个 包含 图 的 顶点 集 的 数组 。 
2. 一 个 包含 图 的 边 集 的 数组 。 
3. 对 于 每 条 边 ， 有 一 个 指针 指向 它 的 每 个 顶点 。 
4. 对 于 每 个 顶点 ， 有 一 个 指针 指向 它 的 每 条 关联 边 . 
邻接 列表 表示 形式 可 以 简化 为 两 个 数组 (或 者 链表 ): 一 个 用 于 记录 顶点 ， 
另 一 个 用 于 记录 边 。 这 两 个 数组 以 一 种 自然 的 方式 交叉 引用 对 方 , 每 条 边 都 有 相 
关联 的 指针 指向 它 的 每 个 顶点 ， 每 个 顶点 都 有 指针 指向 以 它 为 顶点 的 边 
































对 于 有 向 图 ， 每 条 边 记录 哪个 顶点 是 尾 顶点 ， 哪 个 顶点 是 头顶 点 。 每 个 顶点 vy 
维护 两 个 指针 数组 , 一 个 表示 外 向 边 (v 是 尾 顶 点 )， 另 一 个 表示 入 射 边 (v 是 头顶 点 )。 


邻接 列表 表示 形式 的 内 存 需 求 是 怎么 样 的 呢 ? 



































小 测验 1.2 
图 的 邻接 列表 表示 形式 需要 多 大 的 空间 ? (用 顶点 数量 和 边 的 数量 的 函数 形式 表示 , ) 
(a) O(n) 
(b) O(m) 





(c) O(mtn) 
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(d) O(n’) 
(正确 答案 和 详细 解释 参见 1.4.4 节 。 ) 





1.4.2 ”邻接 矩阵 


考虑 一 个 无 向 图 G=(V,E)， 它 具有 n 个 顶点 且 没 有 平行 边 ， 并 用 1,2,3,…,n 
标识 它 的 顶点 。G 的 邻接 矩阵 表示 形式 是 一 个 正方 形 的 nxn 秆 阵 4， 相 当 于 一 个 
二 维 数组 ， 其 元 素 是 0 或 1。 每 个 元 素 4; 被 定义 为 : 




































































如 果 边 (i, 力 属于 E， 则 4;y=1; 





否则 ， A;=0。 


因此 ， 邻 接 和 矩阵 用 一 个 位 表示 每 一 对 顶点 ， 标 记 这 对 顶点 之 间 是 否 存 在 边 
( 见 图 1.7)。 











Dr- 

OOPOP 
P2222OPND 
POP“O%W 
OP~O 


全 0 


(a) 一 个 图 (b) 这 个 图 的 邻接 矩阵 
图 1.7 图 的 邻接 矩阵 为 每 一 对 顶点 维护 一 个 位 ， 
表示 是 否 存在 一 条 边 连接 这 两 个 顶点 
我 们 可 以 很 方便 地 在 图 的 邻接 和 矩阵 表示 形式 中 添加 一 些 “ 花 样 ”， 提 示 更 多 
的 信息 。 
















































































。 平行 边 。 如 果 在 同一 对 顶点 之 间 有 多 条 边 ， 那 么 4; 可 以 定义 为 顶点 i 和 
7 之 间 的 边 数 。 








Wh 














。 权重 图 。 类 似 地 ， 如 果 每 条 边 (i, 站 具有 权重 wy， 例 如 表示 价格 或 


ly 
亚 


。 有 向 


如 果 边 


否则 ， 


现在 ， 

















但 有 向 











图 。 对 于 有 向 图 








力 (, 旋 属 于 已 那么 4y=1 





A;=0。 


“ 边 (i, 让 ”表示 


图 的 邻接 矩阵 通 








邻接 矩阵 的 内 存 需求 


(正确 答 








(c) O(mtn) 
(d) O(n’) 


答 业 和 详细 解释 


从 i 到 j 的 有 向 边 
常 是 不 对 称 的 。 


是 怎么 样 的 呢 ? 














小 测验 1.3 


泽 参 见 1.4.4 节 。) 


NN 1.4 图 的 表示 方法 


C， 邻 接 矩 阵 的 每 个 元 素 被 定义 为 : 


。 每 个 无 向 图 的 邻接 和 








E 阵 都 是 对 称 的 ， 





图 的 邻接 矩阵 需要 占据 多 大 的 内 存 空 间 呢 ? ( 用 顶点 数量 n 和 边 的 数量 m 的 
函数 形式 表示 。) 
(a) O(n) 
(b) ©O(m) 








1.4.3 ”图 的 表示 形式 之 间 的 比较 








图 有 
式 更 好 呢 ? 

















两 种 不 同 的 表示 


答案 通常 是 “ 





边 的 数量 


与 顶点 的 数量 的 











形式 也 是 一 件 
取决 于 具体 情况 ”。 
相对 数量 比 。 






































和 矩阵 














] 于 表示 稠密 图 是 非 
取决 于 我 们 要 支持 的 操作 。 

















常 高 效 的 ， 但 用 来 表示 稀 疏 图 


合 考虑 之 下 , 对 于 本 系列 图 书 所 描 


Tse 
综 





邻接 列表 是 更 为 合理 的 表示 
大 多 数 与 图 有 关 的 算法 涉及 图 的 探索 。 邻接 列表 非常 适合 


我 们 访问 一 个 顶点 时 立即 就 能 告诉 我 们 接 下 来 可 以 在 哪 几 个 步 又 中 进 











， 邻 接 列 


形式 。 


令 人 烦恼 的 事情 





。 我 们 不 禁 会 问 ; 


哪 种 形 














首先 ， 








述 的 









































它 取 决 于 图 的 密度 ， 也 就 是 
小 测验 1.2 和 小 测验 1.3 向 我 们 提示 邻接 
是 极为 浪费 的 。 其 次 ， 





ri 


巴 


法 和 应 用 ， 

















进行 图 的 探索 ， 当 


9 
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行 选择 。 "邻接 矩阵 也 有 一 些 合 适 的 应 用 ， 但 本 系列 图 ; 





并 不 会 讨论 这 些 应 用 。” 




















当前 对 快速 图 元 的 兴趣 大 多 来 自 于 





























之 内 。 保 守 地 估计 









































的 ， 但 还 是 在 现代 计算 机 的 能 力 范 转 
顶点 数量 的 下 界 大 约 是 100 亿 〈10")。 存 储 和 读 取 如 此 长 度 


巨大 的 稀 朴 网 络 。 例 如 ， 我 们 可 以 考虑 
Web 图 ( 见 1.2 节 )， 其 中 顶点 对 应 于 Web 页 面 ， 有 向 
类 型 的 图 的 大 小 进行 精确 的 测量 是 非常 困 久 





边 对 应 于 超 链 接 。 对 这 














的 数组 需要 巨 量 的 计算 资源 ,不 过 现代 计算 机 还 是 能 够 胜任 。 但是， 这 种 图 的 邻 
接 和 矩阵 的 大 小 规模 达到 了 百 万 的 三 次 方 的 100 倍 (10”)。 对 于 当前 的 技术 而 言 ， 
存储 和 处 理 如 此 巨 量 的 数据 是 力 所 不 及 的 。 但 是 ，Web 图 是 稀疏 图 ， 从 一 个 项 
点 出 发 的 边 的 平均 数量 小 于 100。 因 此 ， 























10”( 万 亿 级 )。 这 个 规模 对 于 笔记 本 计算 机 来 说 可 



































Web 图 的 邻接 列表 的 内 存 需求 大 约 为 








数据 处 理 系统 而 言 ， 还 是 在 它 的 能 力 范 围 之 内 的 。” 


1.4.4 小 测验 1.2 和 小 测验 1.3 的 答案 


小 测验 1.2 的 答案 














正确 答案 : (ce)。 邻 接 列 表 表示 




















能 过 于 庞大 ， 但 对 于 最 前 沿 的 














式 所 需要 的 空间 与 图 的 大 小 〈 即 顶点 的 数 











量 加 上 边 的 数量 ) 呈 线 性 关系 ， 是 比较 理想 的 。 "要 理解 这 一 点 略 有 难度 ， 我 们 








逐个 观察 它 的 4 个 组 成 部 分 。 顶 点 数组 和 














边 数 组 的 长 度 分 别 是 n 和 m, 分 别 需 要 


(nn) 和 OB(m) 的 空间 。 第 3 个 组 成 部 分 将 两 个 指针 与 每 条 边 相 关联 (每 个 顶点 与 
一 个 指针 关联 )， 这 2m 个 指针 产生 了 额外 的 @(m) 的 空间 需求 。 


第 4 个 组 成 部 分 可 能 会 令 我 们 感到 困惑 。 无论 怎 样 , 总 共 n 个 顶点 中 的 每 一 





个 顶点 均 可 以 参与 到 多 达 n-1 条 的 边 








































































































例如 ， 我 们 可 以 通过 探索 图 的 邻接 和 矩阵 ， 立 








即 算 





















































例如 ，Google 原创 的 用 于 评估 网 页 重要 性 的 








网 页 








©S@OO 














警告 : 邻接 矩阵 增加 了 一 个 维度 ， 因 此 它 的 主 











数量 级 。 


要 约束 条 件 更 大 。 前 























FP， 即 可 以 与 其 他 的 每 个 顶点 形成 一 条 边 ， 
因此 看 上 去 会 导致 空间 需求 的 上 界 为 9(m)。 这 种 平方 级 的 上 界 对 于 极为 稠密 的 图 


言 是 准确 的 ， 但 对 于 稀疏 图 来 说 却 显得 过 大 了 。 关 键 在 于 : 对 于 第 4 个 组 成 部 


























如 果 只 能 使 用 图 的 邻接 矩阵 表示 形式 ， 那 么 如 何 才能 确定 一 个 特定 的 顶点 相关 联 的 边 是 哪 几 条 呢 ? 
出 每 对 顶点 的 公共 邻居 的 数量 。 
排名 算法 的 本 质 就 依赖 于 Web 图 的 高 效 搜索 。 

导 的 常数 因子 要 比邻 接 和 矩阵 大 一 个 
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分 中 的 每 个 “顶点 一 边 ” 指 针 ， 在 第 3 个 组 成 部 分 中 都 存在 一 个 对 应 的 “ 边 一 项 
点 ”指针 。 如 果 边 e 指向 顶点 v, 那么 边 e 就 有 一 个 指向 这 个 顶点 v 的 指针 。 反 之 ， 
顶点 v 也 有 一 个 指向 它 的 关联 边 e 的 指针 。 我 们 可 以 得 出 结论 ， 即 第 3 个 组 成 部 
分 和 第 4 个 组 成 部 分 中 的 指针 具有 一 对 一 的 对 应 关系 ， 因 此 它们 需要 相同 数量 的 
空间 ， 也 就 是 9(m)。 最 终 的 空间 需要 : 





























顶点 数组 O(n) 
边 数 组 O(m) 
从 边 到 顶点 的 指针 O(m) 
+ 从 顶点 到 关联 边 的 指针 O(m) 
总 共 O(m+n) 









































无 论 图 是 否 为 连接 图 ， 以 及 图 是 否 具 有 平行 边 ， 这 个 @(m+tn) 的 上 界 均 适用 。” 
小 测验 1.3 的 答案 























正确 答案 : 〈d)。 邻 接 和 矩阵 的 一 种 简单 存储 方法 是 一 个 nxn 的 二 维 位 数组 ， 这 
需要 @(o) 的 空间 ， 不 过 还 有 一 个 较 小 的 隐藏 常量 因子 。 对 于 稠密 图 ， 边 的 数量 接 
近 于 守 的 平方 ， 邻 接 矩 阵 所 需要 的 空间 大 致 与 图 的 大 小 呈 线 性 关系 。 但 是 ee 
的 数量 大 致 与 呈 线 性 关系 的 稀疏 图 ， 邻 接 和 矩阵 表示 形式 大浪 费 空 间 了 。 




































































1.5 ”本章 要 后 




















。 图 是 对 象 之 间 逐 对 关系 的 一 种 表示 形式 ， 例 如 社交 网 络 中 的 朋友 关系 、 

Web 页 面 之 间 的 超 链 接 关系 或 任务 之 间 的 依赖 关系 。 

。 图 由 一 组 顶点 和 一 组 边 组 成 。 在 无 向 图 中 ， 边 是 没有 方向 的 ， 在 有 向 图 
中 ， 边 是 有 方向 的 。 




















































































































(D 如 果 是 连接 图 ， 那 么 m 宇 n-1〔 小 测验 1.1 的 结论 )， 因 此 可 以 用 B@(m) 代 栓 @(m+tn)。 
@ ”对 稀 玻 矩阵 《〈 即 存在 大 量 0 的 矩阵 ) 使 用 一 些 存储 和 操作 技巧 ， 可 以 减少 这 种 浪费 。 例 如 ,MATLAB 
和 Python 的 SciPy 程序 包 均 支持 稀 玻 矩阵 表示 形式 。 



























































第 1 章 图 的 基础 知识 任 


















































。 如 果 图 中 边 的 数量 m 大 致 与 顶点 的 数量 对 呈 线 性 关系 ， 那 么 这 种 图 就 是 
稀疏 图 。 如 果 图 中 边 的 数量 m 大 致 与 顶点 的 数量 n 呈 平 方 关系 ， 那 么 这 
种 图 就 是 稠密 图 。 























。 图 的 邻接 列表 表示 形式 维护 图 的 顶点 数组 和 边 数组 ， 彼 此 之 间 以 一 种 自然 
的 方式 实现 交叉 引用 ， 它 所 需要 的 空间 与 顶点 和 边 的 总 数量 呈 线 性 关系 。 


。 图 的 邻接 矩阵 表示 形式 为 每 一 对 顶点 维护 1 个 位 ， 用 于 记录 它们 之 间 是 
否 存 在 一 条 边 。 这 种 表示 形式 所 需要 的 空间 与 顶点 的 数量 呈 平 方 关系 。 


。 邻接 列表 表示 形式 适用 于 稀 玻 图 以 及 那些 涉及 图 的 探索 的 应 用 。 































































































1.6 ” 章 末 习题 


问题 1.1 假设 G=(V, 刀 ) 是 个 无 向 图 。 顶点 ve 六 的 度数 表示 E 中 与 顶点 v 相 
关联 的 边 的 数量 ( 即 以 v 为 终点 )。 对 于 图 G 的 下 面 每 个 条 件 ， 是 否 只 有 稠密 图 
满足 或 者 只 有 稀 疏 图 满足 ? 或 者 部 分 稠密 图 和 部 分 黎 玻 图 能 满足 ” 和 往常 一 样 ， 
n =| 表示 顶点 的 数量 。 假 设 n 很 大 (例如 至 少 为 10 000)。 

(a) G 至 少 有 一 个 顶点 的 度数 最 多 为 10。 

(b) G 的 每 个 顶点 的 度数 最 多 为 10。 

(c) G 至 少 有 一 个 顶点 的 度数 为 n-1。 

(d) G 的 每 个 顶点 的 度数 为 n-1。 


问题 1.2 ”考虑 一 个 用 邻接 矩阵 表示 的 无 向 图 G=(V,E)。 对 于 顶点 veV， 为 
了 确定 以 * 为 顶点 的 边 有 哪些 ， 需 要 多 少 操作 ? (用 表示 这 种 边 的 数量 。 和 往 
常 一 样 ，n 和 m 分 别 表示 顶点 和 边 的 数量 。) 


(a) 9(]) 
































































































































(b) @ 则 
(c) O(n) 
(d) 9 (m) 
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问题 1.3 ”考虑 一 个 用 邻接 列表 表示 的 有 向 图 G=(V, 有 ， 它 的 每 个 顶点 存储 
了 一 个 数组 ， 包 含 了 每 一 条 从 它 所 发 射 的 边 〈 但 不 包括 入 射 到 它 的 边 )。 对 于 项 
点 veyV， 为 了 确定 v 有 哪些 入 射 边 ， 需 要 多 少 操作 ? 〈 用 表示 这 种 边 的 数量 。 
和 往常 一 样 ，n 和 m 分 别 表示 顶点 和 边 的 数量 。) 


(a) ©(1) 





























(b) @ 则 
(c) On) 
(d) © (m) 
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图 的 搜索 及 其 应 用 


本 章 讨论 与 图 的 搜索 及 其 应 用 有 关 的 基础 
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有 令 人 惊叹 上 





的 高 速度 ( 具 





























有 较 小 常数 因 




















知识 。 本 章 将 要 





讨论 的 所 有 算法 都 

















子 的 线性 时 间 )， 但 

















是 特别 容易 理解 .本 章 的 重点 是 只 
连通 分 量 的 计算 ( 见 2.6 节 )， 
察 力 。 


本 章 首 先是 概述 内 容 ( 见 2.1 节 ), 解释 了 要 关注 图 
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法 往往 需 
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竺 不 进行 任何 


[ 作 的 前 提 下 对 图 进行 搜索 的 一 种 通 月 








几 





人 外 一 


的 搜索 策略 一 一 宽度 优先 的 搜 
高 层次 的 描述 。2.2 节 和 2.3 节 详 细 描 
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/fe 








通 分 量 的 计算 方面 的 应 用 。2.4 节 和 2.5 节 深 入 探讨 了 DFS， 























2.6 节 使 用 DFS 在 线 必 
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索 




















有 向 无 环 图 的 拓扑 顺序 (相当 于 在 遵循 优 # 


(BFS) 和 深度 优 9 





FE 时 间 内 计算 有 向 图 























图 元 可 用 于 对 Web 





对 











的 搜索 全 


的 结构 进行 探索 。 


2.1 
































的 搜索 的 部 分 原 
策略 。 本 节 还 对 两 种 重 
的 搜索 (DFS) 一 一 进行 了 


它们 的 工作 方式 并 


深度 优先 的 搜索 就 完成 了 有 向 图 的 强 


要 我 们 对 问题 的 结 








> 并 介绍 














述 了 BFS, 包括 它 在 最 短路 径 计 算 和 无 向 


区 





的 








并 讨论 了 如 何 用 


它 i 

















的 强 连通 分 量 。2.7 节 解 











概述 


法 及 其 应 用 进行 了 概述 。 


E 级 约束 的 前 提 下 对 任务 进行 序列 化 )。 


























l 释 了 为 什么 这 种 快 
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为 什么 需要 对 图 进行 搜索 呢 ? 或 者 说 为 什么 要 判断 一 个 图 是 否 包含 了 一 条 
从 点 4 到 点 B 的 路 径 呢 ? 下面 仅仅 是 众多 理由 中 的 几 个 。 

检查 连通 性 。 在 诸如 道路 网 或 计算 机 网 络 这 样 的 实体 网 络 中 , 一 种 重要 的 检 
查 标准 就 是 判断 是 否 可 以 从 一 个 地 点 到 达 另 一 个 地 点 。 也 就 是 说 ， 对 于 点 4 和 点 
B， 网 络 中 应 该 存在 一 条 路 径 从 前 者 出 发 到 达 后 者 。 

连通 性 对 于 表示 对 象 之 间 逐 对 关系 的 抽象 图 〈 非 实体 图 〉 也 非常 重要 。 一 种 
非常 有 趣 的 网 络 是 电影 网 络 ， 其 中 顶点 对 应 于 电影 演员 ， 当 两 名 演员 在 同一 部 电 
影 中 出 演 时 ， 他 们 之 间 就 由 一 条 无 向 边 予 以 连接 。" 例 如 ,， “不 同 演员 之 间 的 分 离 
度 是 多 少 ” 这 类 统计 数字 中 较 有 名 的 就 是 Bacon 数 ?， 表示 一 名 演员 通过 电影 网 络 
联系 到 著名 影星 Kevin Bacon 最 少 需要 几 次 跳跃 。 因 此 ，Kevin Bacon 本 身 的 Bacon 
数 是 0， 每 一 名 与 Kevin Bacon 在 同一 部 电影 中 出 演 的 演员 的 Bacon 数 是 1， 每 一 
名 与 Bacon 数 为 1 的 演员 在 同一 部 电影 中 出 过 场 的 演员 (但 不 包括 Kevin Bacon 
本 人 ) 的 Bacon 数 是 2， 接 下 来 以 此 类 推 。 例 如 ， 因 为 在 有 线 电视 系列 剧 《 广 告 
狂人 》(Mad Men) 中 饰演 Don Draper 而 声名 大 噪 的 Jon Hamm 的 Bacon 数 为 2。 
Hamm 从 来 不 曾 与 Bacon 在 同一 部 电影 中 出 现 ， 但 他 在 Colin Firth 主演 的 《单身 
男人 》(4 Single Man) 中 出 演 过 一 个 小 角色 ， 而 Firth 和 Bacon 共同 出 沉 了 Atom 
Egoyan 执导 的 《 何 处 寻 真相 》(Where the Truth Lies)， 如 图 2.1 所 示 。? 











































































































丰 旺 



























































































































































《单身 男人 》 《 何 处 寻 真 相 》 








2.1 电影 网 络 的 一 个 片段 ， 显 示 了 Jon Hamm 的 Bacon 数 至 少 为 2 





(DD 参见 The Oracle of Bacon 网 站 。 

@ Bacon 数 是 Erd5s 数 这 个 概念 的 一 种 新 叫 法 ， 后 者 是 根据 著名 数学 家 Paul Erd5s 而 取 名 的 ， 它 在 共同 
作者 图 中 测量 从 Erd6s 出 发 的 分 离 度 (每 个 顶点 表示 一 名 研究 人 员 ， 两 名 研究 人 员 如 果 共 同 发 表 过 一 
篇 论文 ， 他 们 之 间 就 有 一 条 边 相 连 )。 

@@ Bacon 和 Hamm 之 间 还 有 很 多 其 他 的 两 级 跳跃 路 径 。 



















































































16 ”第 2 章 图 的 搜索 及 其 应 用 人 














最 短路 径 。Bacon 数 所 关心 的 是 电影 网 络 中 两 个 顶点 之 间 的 最 短路 径 ， 
也 就 是 参与 的 边 数 最 少 的 路 径 。 我 们 将 在 2.2 节 中 看 到 ， 一 种 称 为 宽度 优先 
的 图 搜索 策略 可 以 很 自然 地 计算 最 短路 径 。 有 大 量 的 其 他 问题 可 以 最 终 简 化 
为 最 短路 径 的 计算 ， 其 中 “最 短 ” 的 定义 取决 于 具体 的 应 用 (如 最 大 限度 地 
缩短 行车 路 线 、 计 算 最 少 的 机 票 金额 等 )。 第 3 章 的 主题 是 Dijkstra 的 最 短路 
径 算法 ， 它 建立 在 宽度 优先 搜索 的 基础 之 上 ， 用 于 解决 更 为 基本 的 最 短路 径 
问题 。 

规划 。 图 中 的 一 条 路 径 并 不 一 定 要 表示 实体 网 络 中 的 一 条 实际 路 径 。 按 
照 更 加 抽象 的 说 法 ， 路 径 是 让 我 们 从 一 个 状态 变化 到 另 一 个 状态 所 采取 的 一 
系列 决策 。 图 的 搜索 算法 可 以 应 用 于 抽象 图 ， 计 算 从 一 个 初始 状态 到 达 一 个 
目标 状态 所 需要 的 规划 。 例 如 ， 我 们 希望 采用 一 种 算法 解决 一 个 数 独 难题 。 
我 们 可 以 把 图 中 的 顶点 对 应 于 部 分 完成 的 数 独 难 题 (81 个 空格 的 其 中 几 个 ， 
但 不 违反 数 独 规则 )， 把 有 向 边 对 应 于 填充 数 独 难题 中 的 一 个 新 格 ( 按 照 数 独 
的 规则 进行 填写 )。 获 取 数 独 难题 的 答案 完全 可 以 对 应 于 计算 一 条 从 数 独 难题 
的 起 始 顶 点 到 达 解 决 该 难题 的 最 后 一 个 顶点 的 有 向 路 径 。" 另 举 一 个 例子 ， 
机 器 人 手 辟 抓 住 一 个 咖啡 杯 在 本 质 上 也 是 一 种 规划 问题 。 在 相关 联 的 图 中 ， 
顶点 对 应 于 机 器 人 手臂 可 能 出 现 的 配置 ， 边 对 应 于 手臂 配置 中 微小 的 可 实现 
的 变化 。 

连通 分 量 。 我 们 还 将 看 到 一 些 建立 在 图 的 搜索 基础 上 的 算法 , 用 于 计算 图 的 
连通 分 量 (“片段”)。 定 义 和 计 算 无 向 图 的 连通 分 量 相 对 简单 ( 见 2.3 节 )。 对 于 
有 向 图 ， 即 使 是 “连通 分 量 ” 的 定义 也 是 一 件 颇 为 微妙 的 事情 。2.6 节 对 它们 进 
行 了 定义 ， 并 显示 了 如 何 使 用 深度 优先 的 搜索 ( 见 2.4 节 ) 高 效 地 计算 有 向 图 的 
连通 分 量 。 我 们 还 将 看 到 深度 优先 的 搜索 在 任务 序列 化 方面 的 应 用 ( 见 2.5 节 )， 
并 可 以 帮助 我 们 理解 Web 图 的 结构 ( 见 2.7 节 )。 


2.1.2 ” 零 代 价 的 基本 算法 


2.1.1 节 的 例子 说 明了 图 的 搜索 是 一 种 基本 并 且 可 以 广泛 应 用 的 快速 算法 。 
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(D 由 于 这 样 的 图 过 于 庞大 ， 很 难 明确 地 写 下 来 ， 所 以 现实 的 数 独 解 题 者 会 采用 一 些 其 他 思路 。 






































在 本 章 中 , 我 很 高 兴 地 宣布 , 我 们 的 所 有 算法 都 具有 令 人 惊叹 的 高 速度 运行 时 
间 仅 仅 是 OGn+n)， 其 中 m 和 分 别 表示 图 的 边 数 和 顶点 数 。" 与 读 取 输入 所 需 
要 的 时 间 相 比 ， 它 只 不 过 是 大 一 些 的 常数 因子 而 已 ! “我 们 可 以 得 出 结论 ， 这 些 
算法 是 “ 零 代价 的 基本 算法 ” 当 我 们 处 理 图 数据 时 ， 可 以 之 无 负担 地 使 用 这 样 
的 算法 收集 相关 的 信息 。” 




















































































































一 
零 代价 的 基本 算法 


我 们 可 以 把 具有 线性 或 近似 线性 运行 时 间 的 算法 看 作 本 质 上 “ 零 代价 ” 
的 基本 算法 ， 因 为 它们 所 使 用 的 计算 量 比 读 取 输 入 多 不 了 多 少 。 当 我 们 的 问 
题 存 在 一 个 相关 联 的 具有 令 人 惊叹 的 高 速度 的 基本 算法 时 ， 为 什么 不 使 用 它 
呢 ? 例如 ， 我 们 总 是 可 以 在 一 个 预 处 理 步骤 中 计算 图 数据 的 连通 分 量 ， 即 使 
我 们 并 不 知道 这 个 数据 以 后 是 否 有 用 。 本 系列 图 书 的 目的 之 一 就 是 让 我 们 的 
算法 工具 箱 内 包含 尽 可 能 多 的 零 代 价 基本 算法 ， 在 需要 的 时 候 可 以 随时 应 用 。 








2.1.3 ”通用 的 图 搜索 算 ; 


对 于 图 的 搜索 算法 而 言 ， 关 键 在 于 解决 下 面 的 问题 。 
































问题 : 图 的 搜索 
输入 : 无 向 图 或 有 向 图 G=( 矿 下， 起 始 顶点 se 所 
目标 : 识别 G 的 顶点 集合 严 中 从 8 可 以 到 达 的 所 有 顶点 。 
所 谓 顶 点 v“ 可 到 达 ” 的 意思 是 在 G 中 存在 一 个 边 的 序列 ， 能 够 从 到 达 
v。 如 果 G 是 有 向 图 ， 那 么 路 径 中 的 所 有 边 都 应 该 向 前 访问 《向 外 )。 例 如 ， 在 
图 2.2(a) 中 ， 从 s 可 到 达 的 顶点 集合 是 {5,uv,w}。 在 图 2.2(b) 的 有 向 图 版 本 中 ， 


























































































































































































































@ 另外 ， 被 大 O 记 法 隐藏 的 常数 因子 相对 较 小 。 

人 @ 在 图 的 搜索 和 连通 性 问题 中 ， 没 有 理由 认为 输入 图 必定 是 连通 的 。 在 m 的 数量 可 能 远 远 小 于 n 的 未 
连通 图 中 ， 图 的 长 度 是 (m+n)， 并 不 一 定 能 简化 为 6(m)。 

@) 能 不 能 做 得 更 好 ? 不 行 ， 最 大 限度 就 是 隐藏 的 常数 因子 ， 因 为 每 种 正确 的 算法 至 少 需 要 读 取 输入 。 
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不 存在 从 s 到 w 的 有 向 路 径 , 只 有 s、u 和 vw 是 可 以 从 s 出 发 通过 有 向 路 径 到 达 





(a) 无 向 图 版 本 (b) 有 向 图 版 本 








图 2.2 在 (a) 中 ， 从 s 可 到 达 的 顶点 集合 是 {5,u,v,w}。 
在 (b) 中 ， 从 s 可 到 达 的 顶点 集合 为 {5,uv} 























我 们 所 关注 的 两 种 搜索 策略 分 别 是 宽度 优先 的 搜索 和 深度 优先 的 搜索 ， 它 们 
是 通用 的 图 搜索 算法 实例 化 之 后 的 不 同方 法 。 通 用 的 图 搜索 算法 会 系统 性 地 找到 
所 有 可 到 达 的 顶点 ， 并 注意 避免 两 次 探索 同一 个 顶点 。 该 算法 为 每 个 顶点 维护 一 
个 额外 的 变量 ， 记 录 顶 点 是 否 已 经 被 探索 。 它 在 第 一 次 到 达 某 个 顶点 时 为 它 植 入 
一 个 标志 。 主 循环 的 职责 是 在 每 次 迭代 时 访问 一 个 新 的 未 探索 顶点 。 














































































































GenericSearch 
输入 : 图 G= (了 EE),， 顶点 seV. 
完成 状态 : 当 且 仅 当 一 个 顶点 被 标记 为 “已 探索 ”时 ， 它 才 是 从 ss 可 到 达 的 。 

















把 s 标 记 为 已 探索 ， 所 有 其 他 顶点 均 标 记 为 未 探索 
while 存在 一 条 边 (v, w) eE 且 v 已 探索 、w 未 探索 

do 

选择 一 条 这 样 的 边 (v w) ”// 不 够 明确 

把 w 标 记 为 已 探索 

这 个 算法 在 本 质 上 对 于 有 向 图 和 无 向 图 是 相同 的 。 如 果 是 有 向 图 ， 那 么 在 

while 循环 的 一 次 迭代 中 所 选择 的 边 (v,w) 应 该 是 一 条 从 已 探索 顶点 v 到 未 探索 顶 
点 w 的 有 向 边 。 





























































































































G 一般 而 言 , 本 章 的 大 多 数 算法 和 论证 同时 适用 于 无 向 图 和 有 向 图 。 一 个 明显 的 例外 是 在 计算 连通 分 量 
的 时 候 ， 这 个 问题 在 有 向 图 中 要 比 在 无 向 图 中 更 为 复杂 。 





















































关于 伪 码 


本 系列 图 书 在 解释 算法 时 混合 使 用 了 高 级 伪 码 和 日 常 语言 (就 像 上 文 
一 样 )， 并 假设 读者 有 能 力 把 这 种 高 级 描述 转换 为 自己 所 擅长 的 编程 语言 
的 工作 代码 .有 些 图 书 和 网 络 上 的 一 些 资 源 使 用 某 种 特定 的 编程 语言 提供 


各 种 算法 的 具体 实现 。 


强调 用 高 级 描述 代替 特定 语言 的 实现 的 第 一 个 优点 是 它 的 灵活 性 : 我 
假设 读者 熟悉 某 种 编程 语言 ， 但 我 并 不 关注 具体 是 哪 种 。 其 次 ， 这 种 方法 
, 而 不 被 底层 细 
节 所 干扰 .经 验 丰 富 的 程序 员 和 计算 机 科学 家 一 般 是 站 在 较 高 的 层次 上 对 


可 以 帮助 我 们 在 一 个 更 深 的 概念 层次 上 加 深 对 算法 的 理解 


算法 进行 思考 和 交流 的 。 


但 是 ， 要 对 算法 有 深入 的 理解 ， 最 好 能 够 亲自 实现 它们 。 我 强烈 建议 
读者 只 要 有 时 间 ， 就 应 该 尽 可 能 多 地 实现 本 书 所 描述 的 算法 。( 这 也 是 学 
习 一 种 新 的 编程 语言 的 合适 借口 ! ) 后 续 每 章 最 后 的 编程 问题 和 支持 测试 


用 例 提 供 了 这 方面 的 指导 意见 。 





Ny 2.1 概述 











例如 ， 在 图 2.2 〈a) 中 ， 一 开始 只 有 起 始 顶 点 s 被 标记 为 已 探索 。 在 while 
循环 的 第 一 次 迭代 中 ， 有 (s,w) 和 (s,v) 两 条 边 满足 循环 条 件 。GenericSearch 算法 选 
择 这 两 条 边 中 的 一 条 假设 是 (s,wx))， 并 把 u 标记 为 已 探索 。 在 循环 的 第 二 次 迭 
代 中 ， 同 样 存在 (s,v) 和 (wu,w) 两 个 选择 。 算 法 可 能 会 选择 (u,w)， 


































































































在 这 种 情况 下 把 w 

















标记 为 已 探索 。 又 经 过 一 次 迭代 (选择 了 (s,v) 或 (w,v)) 之 后 , v 被 标记 为 已 探索 。 
此 时 ， 边 (cy) 具 有 两 个 未 探索 的 顶点 ， 而 其 他 边 的 两 个 顶点 都 是 已 探索 的 ， 因 此 
算法 终止 。 正 如 我 们 所 期 望 的 ， 被 标记 为 已 探索 的 顶点 s、u、 
s 到 达 的 顶点 。 
























































这 种 通用 的 图 搜索 算法 是 不 够 明确 的 ， 因为 在 while 循环 
























































v 和 w 正 是 可 以 从 





的 一 次 迭代 中 有 多 





条 边 (v,w) 可 供 选 择 。 宽 度 优 先 的 搜索 和 深度 优先 的 搜索 对 应 于 下 一 步 选 择 探索 
哪 条 边 的 两 种 特定 决策 。 无 论 进行 什么 选择 ，GenericSearch 



































正确 


的 (无 论 是 无 向 图 还 是 有 向 图 )。 





























法 都 能 够 保证 是 
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命题 2.1 (通用 的 图 搜索 算法 的 正确 性 ) 作为 GenericSearch 算法 的 结论 ， 
当 且 仅 当 G 中 存在 一 条 从 ;s 到 vw 的 路 径 时 ， 顶 点 ve 了 被 标记 为 已 探索 。 

2.1.5 节 提 供 了 命题 2.1 的 形式 证 明 ， 如 果 读 者 觉得 这 个 命题 显而易见 是 正确 
的 ， 那 么 可 以 跳 过 这 个 证 明 。 




















”> 
关于 辅助 结论 、 定 理 等 名 词 


在 数学 著作 中 , 最 重要 的 技术 性 陈述 称 为 定理 . 辅助 结论 是 一 种 帮助 
证 明定 理 的 技术 性 陈述 (就 像 一 个 子 程序 帮助 实现 一 个 更 大 的 程序 一 样 )。 
推论 是 一 种 从 已 经 被 证 明 的 结果 中 引导 产生 的 陈述 ,例如 一 个 定理 的 一 种 
特殊 情况 。 对 于 那些 本 身 并 不 是 特别 重要 的 独立 的 技术 性 陈述 , 我 们 将 使 


用 命题 这 个 术语 。 





于 














GenericSearch 算法 的 运行 时 间 是 什么 呢 ? 


GenericSearch 算法 对 于 每 条 边 最 多 只 探索 1 次 ,在 边 (v,w) 第 一 次 被 探索 时 ， 
v 和 w 均 被 标记 为 已 探索 ,这 条 边 将 不 会 被 再 次 考虑 。 这 个 事实 表明 我 们 应 该 能 
够 在 线性 时 间 内 实现 这 个 算法 ， 只 要 能 够 在 while 循环 的 每 次 兴 代 中 快速 地 找到 
一 条 合适 的 边 (v,w)。 我 们 将 分 别 在 2.2 节 和 2.4 节 看 到 宽度 优先 的 搜索 和 深度 优 
先 的 搜索 在 这 个 方面 的 细节 。 


2.1.4 宽大 优先 的 搜索 和 深度 优先 的 搜索 


GenericSearch 算法 的 每 次 迭代 在 图 的 已 探索 部 分 中 选择 在 “边界 ”上 的 一 
条 边 ， 其 中 一 个 顶点 被 标记 为 已 探索 ， 另 一 个 顶点 被 标记 为 未 探索 〈 见 图 2.3 )。 
这 样 的 边 可 能 有 多 条 ， 为 了 使 算法 更 为 明确 ， 需 要 使 用 一 种 方法 在 这 些 边 中 选择 
一 条 。 我 们 将 把 注意 力 集中 在 两 种 重要 的 策略 上 : 宽度 优先 的 搜索 和 深度 优先 的 
搜索 。 它 们 都 是 对 图 进行 探索 的 优秀 方法 ， 分 别 应 用 于 不 同 的 场景 。 
















































































































































































所 2.1 概述 





边 田 
图 2.3 ”GenericSearch 算法 的 每 次 迭代 选择 在 “边界 ”上 的 一 条 边 ， 
该 边 的 一 个 顶点 已 探索 ， 另 一 个 顶点 未 探索 


























宽度 优先 的 搜索 (Breadth-first Search，BFS)。 宽 度 优先 的 搜索 的 高 层 
路 是 精心 地 按 “ 层 ”探索 一 个 图 的 顶点 。 第 0 层 只 包含 起 始 顶 点 s。 第 1 层 
含 了 s 的 邻居 顶点 ， 它 的 含义 是 : 如 果 (s,v) 是 该 图 的 一 条 边 〈( 如 果 是 有 向 图 ， 
边 的 方向 从 s 到 v)， 那 么 顶点 v 就 位 于 第 1 层 。 第 2 层 包 含 了 第 1 层 顶 点 的 
邻居 顶点 中 不 属于 第 0 层 或 第 1 层 的 顶点 。 接 下 来 以 此 类 推 。 在 2.2 节 和 2.3 
节 中 ， 我 们 将 看 到 如 下 内 容 。 

。 如 何 使 用 队列 《先进 先 出 ) 数据 结构 以 线性 时 间 实 现 BFS。 


。 如 何 使 用 BFS《〈 以 线性 时 间 ) 计算 一 个 顶点 和 其 他 所 有 顶点 的 最 短路 径 
的 长 度 ， 其 中 第 i 层 的 顶点 与 s 的 距离 正好 都 是 i。 


。 如 何 使 用 BFS 以 线性 时 间 )〉 计算 无 向 图 的 连通 分 量 。 

深度 优先 的 搜索 (Depth-first Search，DFS)。 深 度 优先 的 搜索 也 许 更 为 重 
要 。DFS 采用 了 一 种 更 为 激进 的 策略 对 图 进行 探索 ， 它 的 思想 与 探索 迷宫 非常 机 
似 ， 就 是 尽 可 能 地 深入 ， 只 有 在 没有 办 法 的 情况 下 才 会 回溯 。 在 2.4 节 一 2.7 节 
中 ， 我 们 将 看 到 如 下 内 容 。 

。 如何 使 用 递归 或 显 式 的 堆栈 (后 进 先 出 ) 数据 结构 以 线性 时 间 实 现 DFS。 

。 如 何 使 用 DEFS 〈 以 线性 时 间 ) 计算 有 向 无 环 图 的 顶点 拓扑 顺序 ， 这 是 一 


四 上 | 
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种 非常 实用 的 用 于 解决 任务 序列 问题 的 基本 算法 。 


。 如 何 使 用 DFS 以 线性 时 间 ) 计算 有 向 图 的 “ 强 连 通 分 量 ”， 并 提供 了 一 
些 应 用 帮助 理解 Web 的 结构 。 


2.1.5 GenericSearch 算法 的 正确 性 


现在 , 我 们 来 证 明 命 题 2.1, 它 陈述 了 GenericSearch 算法 在 输入 图 G=(V, )、 
起 始 顶点 seV 时 的 结论 。 当 且 仅 当 G 中 存在 从 s 到 vy 的 路 径 时 ， 顶 点 vE 严 被 标 
记 为 已 探索 。 和 往常 一 样 ， 如 果 G 是 有 向 图 ，s 一 v 的 路 径 也 应 该 是 有 向 的 ， 路 
径 中 所 有 的 边 都 按照 前 进 方向 。 
这 个 命题 中 的 “ 仅 当 ”应 该 非常 直观 : GenericSearch 算法 发 现 新 顶点 的 唯 
方式 就 是 沿 着 从 s 开始 的 路 径 。” 
这 个 命题 中 的 “ 当 ” 陈 述 了 一 个 稍 不 明显 的 事实 ， 就 是 GenericSearch 算法 
并 不 会 错过 任何 顶点 ， 它 会 找到 每 个 它 应 该 发 现 的 顶点 。 对 此 ,我 们 将 使 用 反 证 
法 。 在 这 种 类 型 的 证 明 中 ， 我 们 先 假设 自己 要 证 明 的 结论 的 反 论 是 正确 的 ， 然 后 
在 这 个 假设 的 基础 上 建立 一 系列 逻辑 正确 的 步骤 ， 最 终 累积 产生 一 个 明显 错误 的 
结果 。 出 现 这 样 的 矛盾 ， 说 明 这 个 假设 是 不 成 立 的 ， 反 过 来 证 明 原 先 的 结论 是 正 
确 的 。 






































































































































































































































































































































此 ， 假 设 图 G 中 存在 一 条 从 s 到 vw 的 路 径 ， 但 GenericSearch 算法 忽视 
了 它 ， 最 终 把 顶点 "标记 为 未 探索 。 设 SEV 表示 G 的 顶点 中 被 这 个 算法 标记 
为 已 探索 的 顶点 。 顶 点 s 属于 $ (在 算法 的 第 1 行 )， 而 顶点 则 不 属于 S( 根 
据 假 设 )。 由 于 s 一 v 路 径 是 从 5 内 部 的 一 个 顶点 到 达 8 外 部 的 一 个 顶点 ， 所 
以 这 条 路 径 至 少 有 一 条 边 e 的 其 中 一 个 端点 4 在 S 中 ， 而 另 一 个 端点 w 在 5 
之 外 (如 果 G 是 有 向 图 ， 那么 此 时 e 的 方向 是 从 指向 w)， 参 见 图 2.4。 但 
是 ， 这 种 情况 是 不 可 能 发 生 的 : 边 e 在 GenericSearch 算法 的 while 循环 中 是 
可 以 被 选择 的 , 而 该 算法 肯定 还 会 继续 探索 , 不 可 能 将 其 放弃 ! GenericSearch 
没有 办 法 在 这 个 时 候 终 止 ， 于 是 就 出 现 了 一 个 悖 论 。 这 个 悖 论 反 过 来 支持 了 
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QD 如 果 我 们 要 严谨 地 证 明 这 一 点 ， 就 必须 通过 一 些 循环 迭代 进行 归纳 。 
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命题 2.1 的 证 明 。 








S = 已 探索 的 顶点 























图 2.4 命题 2.1 的 证 明 。 只 要 GenericSearch 算法 还 没有 发 现 所 有 可 到 达 的 
顶点 ， 就 存在 可 以 进一步 探索 的 边 
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现在 ， 我 们 把 注意 力 集中 在 第 一 种 特定 的 图 搜索 策略 ， 宽 度 优先 的 搜索 。 
2.2.1 高层 思路 





























宽度 优先 的 搜索 按照 与 起 始 顶 点 从 近 到 远 的 顺序 对 顶点 按 层 进行 探索 。 第 
层 除了 起 始 顶 点 s 之 外 没有 其 他 任何 顶点 。 第 1 层 是 那些 与 s 只 有 1 次 跳跃 距离 
的 顶点 集合 ， 也 就 是 s 的 邻居 顶点 。 在 宽度 优先 的 搜索 中 ， 它 们 是 在 s 之 后 立即 
被 探索 的 。 例 如 ， 在 图 2.5 中 ,a 和 5 是 s 的 邻居 顶点 ， 它 们 组 成 了 第 1 层 。 一 
般 而 言 ， 第 i 层 的 顶点 就 是 第 订 1 顶点 的 邻居 顶点 ， 同 时 它们 又 不 属于 第 0、1、 
2、…、 六 1 层 。 宽 度 优先 的 搜索 在 完成 对 第 i-1 层 的 所 有 顶点 的 探索 之 后 对 第 i 
层 的 所 有 顶点 进行 探索 。( 无 法 从 s 到 达 的 顶点 不 属于 任何 层 。) 例如 ， 在 图 2.5 
中 ， 第 2 层 顶 点 是 c 和 dg， 因 为 它们 与 第 1 层 顶 点 相 邻 ， 同 时 本 身 又 不 属于 第 0 
层 或 第 1 层 。( 顶 点 s 也 是 第 1 层 顶点 的 邻居 ， 但 它 属 于 第 0 层 。) 图 2.5 中 的 最 
后 一 层 只 由 顶点 e 组 成 。 
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第 2 层 
































图 2.5 ”宽度 优先 的 搜索 按 层 探索 顶点 。 第 i 层 的 项 点 是 第 计 1 层 顶 点 的 
邻居 顶点 中 在 更 近 的 层次 中 没有 出 现 过 的 顶点 





























小 测验 2.1 
考虑 一 个 具有 n>2 个 顶点 的 无 向 图 ， 它 的 最 小 层 数 和 最 大 层 数 分 别 是 多 少 ? 
(a) 1 和 7 一 ! 
(b) 2 和 7-1 
(c) 1 和 7 
(d) 2 和 7 
(正确 答案 和 详细 解释 参见 2.2.6 节 。 ) 











2.2.2 BFS 的 伪 码 


以 线性 时 间 实 现 宽度 优先 的 搜索 要 求 一 种 简单 的 “先进 先 出 ”的 数据 结构 ， 
称 为 队列 。BFS 使 用 一 个 队列 记录 接 下 来 探索 哪些 项 点。 如 果 读 者 不 熟悉 队列 ， 
现在 就 是 通过 自己 喜欢 的 编程 入 门 图书 (或 通过 网 络 ) 进行 学 习 的 良好 时 机 。 最 
关键 的 是 要 理解 队列 这 种 数据 结构 维护 了 一 个 对 象 列表 ， 可 以 在 常数 级 的 运行 时 





































































































闻 内 在 队列 的 头 部 删除 数据 项 或 者 在 队列 的 


BFS 


”2.2 宽度 优先 的 搜索 和 最 短路 径 





尾部 添加 数据 项 。” 


输入 : 邻接 列表 表示 形式 的 图 G= (V,E) 和 顶点 se 了 
完成 状态 : 当 且 仅 当 一 个 顶点 被 标记 为 “已 搜索 ”时 ， 它 是 可 以 从 8 到 达 的 。 





2 
3 while 0 不 为 空 do 





if 


0 ~ 0 








从 0 的 头 部 删除 一 个 顶点 ， 称 之 为 v 
for 每 条 边 (v, w) 都 在 的 邻接 列表 中 
w 为 未 探索 then 

把 w 标 记 为 已 探索 

把 w 添 加 到 0 的 尾部 





1 把 s 标 记 为 已 探索 ， 所 有 其 他 顶点 标记 为 未 探索 
:= 一 个 队列 数据 结构 ， 用 s 进行 初始 化 


do 








=| 





while 循环 的 每 次 迭代 探索 一 个 新 的 项 点 。 在 第 5 行 
图 ) 或 所 有 从 v 出 发 的 边 
置顶 点 被 添加 到 队列 的 

















将 在 算法 后 














端 为 的 边 〈 如 果 G 是 无 向 区 
和 途 代 。”y 的 未 探索 邻 
面 的 某 次 迭代 中 被 处 理 。 









































2.2.3 BFS 的 一 个 例子 


现在 让 我 们 观察 这 段 伪 码 是 如 何 应 用 于 
队列 的 顺序 (相当 于 探索 的 顺序 进行 编号 。 起 始 顶 点 s 总 是 第 一 个 被 探索 的 。 


while 循环 的 第 1 次 迭代 从 队列 O 中 提取 s 3 









































(s,bp)， 检查 顺 序 与 它们 在 邻接 列表 中 的 出 现 咱 
为 已 探索 ， 所 以 它们 被 扣 




























































































插入 。 图 和 队列 的 当前 状态 见 图 2.6。 

@ 我 们 可 能 永远 不 需要 从 头 实现 队列 ， 攻 
实现 一 个 队列 ， 那 么 可 以 使 用 双 链 表 。 或 者 ， 如 果 预 先知 道 需 
| 中 表示 )， 那 么 也 可 以 改 用 一 个 固定 长 

@ 在 这 个 步骤 中 ， 和 输入 图 用 邻接 列表 表示 是 极为 方便 的 。 












































入 到 队列 中 。 假 设 边 (s,o) 首 先 出 现 ， 因 


度 的 数组 和 几 个 索引 

































































如 果 G 是 有 向 图 ) 
尾部 并 被 标记 为 已 探索 。 它 们 最 


，BFS 对 所 有 的 其 中 一 


























进行 
终 





ji 入 到 


在 随后 的 for 循环 中 检查 边 (s,a) 和 
页 序 相 同 。 由 于 a 和 5 均 没 有 被 标记 


此 a 在 b 之 前 被 





为 它们 是 绝 大 多 数 现代 编程 语言 内 置 的 数据 结构 。 如 果 要 
要 存储 的 对 象 的 最 大 数量 (在 BFS 中 
于 记录 队列 的 头 部 和 











尾部 )。 











不 
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队列 的 头 部 已 经 被 删除 


bp 1a [AX 


队列 Q 的 状态 











2.6 ”while 循环 第 1 次 迭代 时 图 和 队列 的 状态 


到 

















while 循环 的 下 一 次 迭代 从 队列 的 头 部 提取 顶点 a， 并 考虑 与 它 相 关联 的 边 
(s,a) 和 (a,c)。 经 过 检查 确认 s 已 经 被 标记 为 已 探索 之 后 ， 它 会 跳 过 边 (s,a)， 并 把 
(之 前 未 探索 的 ) 顶点 < 添加 到 队列 的 尾部 。 循 环 的 第 3 次 迭代 从 队列 的 头 部 提 
取 顶 点 5b»， 并 把 顶点 4 添加 到 队列 的 尾部 (因为 s 和 已经 被 标记 为 已 探索 ， 所 
以 被 跳 过 )。 图 和 队列 的 新 状态 如 图 2.7 所 示 。 
































队列 的 头 部 已 经 被 删除 


a | o¢ DK 


队列 Q 的 状态 











图 2.7 while 循环 第 3 次 迭代 时 图 和 队列 的 状态 

















在 第 4 次 迭代 中 ， 顶 点 < 从 队列 的 头 部 移 除 。 在 它 的 邻居 顶点 中 ，e 是 唯一 
在 之 前 没有 遇 到 过 的 , 因此 它 被 添加 到 队列 的 尾部 。 最 后 两 次 迭代 先后 从 队列 中 
提取 4 和 e， 并 证 实 它们 的 所 有 邻居 顶点 已 经 被 探索 过 。 此 时 队列 为 空 ， 算 法 便 


告终 止 。 顶 点 是 按照 层次 的 先后 进行 探索 的 ， 第 i 层 的 项 点 是 在 第 i-1 层 的 顶点 
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完成 探索 之 后 立即 进行 探索 的 〈 见 图 2.8)。 











(a) 探索 的 顺序 (b) 层 

















图 2.8 在 宽度 优先 的 搜索 中 ， 第 i 层 项 点 是 在 
第 关 !1 层 顶 点 被 探索 之 后 立即 进行 探索 的 

















2.2.4 正确 性 和 运行 时 间 




















宽度 优先 的 搜索 可 以 发 现 从 起 始 顶 点 出 发 的 所 有 可 到 达 顶 点 ， 它 的 运行 时 间 
为 线性 时 间 。 定理 2.1(c) 给 出 的 更 加 细 化 的 运行 时 间 下 界 在 计算 连通 分 量 (在 2.3 
节 描 述 ) 的 线性 时 间 算 法 时 将 会 用 到 。 

定理 2.1 (BFS 的 属性 ) 对 于 每 个 用 邻接 列表 表示 的 无 向 图 
G= (VE) 以 及 每 个 起 始 顶 点 seV， 存 在 : 

(a) 当 BFS 完成 ， 当 且 仅 当 G 中 存在 一 条 从 到 的 路 径 时 ， 顶 点 ve 了 V 被 
标记 为 已 探索 ; 


(b) BFS 的 运行 时 间 是 O(m+n)， 其 中 m=|H，n=|7|; 





























时 


有 向 图 









































(c) BFS 的 第 2~8 行 的 运行 时 间 是 O(mstn)， 其 中 m, 和 ,分 别 表示 G 中 
从 s 可 以 到 达 的 边 数 和 顶点 数 。 


证 明 : 第 (a) 部 分 的 结论 来 自命 题 2.1 通用 的 图 搜索 算法 GenericSearch 所 
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作出 的 保证 ， 而 BFS 是 GenericSearch 的 一 种 特殊 情况 。" 第 (b〉 部 分 的 结论 来 
第 (ec) 部 分 ， 因 为 BFS 的 整体 运行 时 间 就 是 第 2~8 行 的 运行 时 间 加 上 第 1 
行 的 初始 化 所 需要 的 O(n) 时 间 。 

我 们 可 以 通过 检查 伪 码 来 证 明 第 〈c) 部分。 第 2 行 的 初始 化 需要 0(1) 的 
运行 时 间 。 在 while 主 循环 中 ， 算 法 只 会 遇 到 可 以 从 s 到 达 的 n, 个 顶点 。 由 于 
没有 任何 顶点 会 被 探索 两 次 ， 所 以 每 个 从 s 可 以 到 达 的 顶点 都 会 经 历 1 次 被 添 
加 到 队列 的 尾部 并 从 队列 的 头 部 删除 的 过 程 。 每 个 操作 都 需要 0O(1) 的 运行 时 
间 ， 这 也 是 先进 先 出 的 队列 数据 结构 的 本 质 特 性 。 因 此 ， 第 3 一 4 行 和 第 7 一 8 
行 花费 的 总 时 间 是 O(ns)。 从 s 可 以 到 达 的 ms 条 边 (v,w) 中 的 每 一 条 都 在 第 5 行 
最 多 被 处 理 两 次 ,一 次 是 当 v 是 已 探索 时 ， 另 一 次 是 当 w 是 已 探索 时 。“ 因 此 ， 
第 5 一 6 行 花费 的 总 时 间 是 O(m,)。 这 样 ， 第 2 一 8 行 的 整体 运行 时 间 就 是 


O(mstn,)。 













































































































































































2.2.5 最 短路 径 

















定理 2.1 的 属性 并 不 是 宽度 优先 的 搜索 独 有 的 。 例 如 ， 它 们 对 于 深度 优先 的 
搜索 也 是 成 立 的 。BFS 的 独到 之 处 在 于 ， 只 需要 儿 行 额外 的 代码 ， 它 就 可 以 有 效 
地 计算 出 最 短路 径 的 长 度 。 












































问题 定义 
在 图 G 中 ， 我 们 使 用 dist(v, w) 这 种 记 法 表示 从 Vv 到 w 的 一 条 边 数 最 少 的 路 径 
( 如果 G 中 不 存在 从 Vv 到 w 的 路 径 ， 就 用 +oo 表 示 )。” 


























(D 从 形式 上 说 ，BFS 相当 于 GenericSearch 的 一 种 特殊 版 本 。 在 此 版 本 的 while 循环 的 每 次 迭代 中 ， 算 
法 选择 v 最 早 被 发 现 的 可 供 选 择 的 边 (v,w), 它 是 在 v 可 选择 的 边 中 根据 它们 在 v 的 邻接 列表 中 的 顺序 
作出 选择 的 。 如 果 觉 得 上 面 的 说 法 过 于 复杂 ， 可 以 阅读 命题 2.1 的 证 明 ， 它 对 于 宽度 优先 的 搜索 同样 
适用 。 从 理论 上 说 ， 宽 度 优先 的 搜索 只 是 通过 探索 从 s 开始 的 路 径 来 发 现 顶 点 ， 只 要 它 还 没有 探索 完 
一 条 路 径 上 的 每 个 顶点， 这 条 路 径 上 的 “下 一 个 顶点 ”仍然 在 队列 中 等 待 未 来 的 探索 。 

@ 如 果 G 是 有 向 图 ， 那 么 每 条 边 最 多 只 处 理 1 次 ， 就 是 当 它 的 尾 顶 点 被 处 理 时 。 

@@ 和 往常 一 样 ， 如 果 G 是 有 向 图 ， 那 么 路 径 的 所 有 边 都 应 该 按照 向 前 的 方向 访问 。 
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问题 : 最短 路径 ( 单元 边 的 长 度 ) 
输入 : 无 向 图 或 有 向 图 G=(V,E)， 起 始 顶 点 se 了 。 
输出 : 每 个 顶点 ve 的 dist(sw)。” 
例如 ， 如 果 G 是 电影 网 络 ，s 是 与 Kevin Bacon 对 应 的 顶点 ， 那 么 计算 最 短 
路 径 的 问题 就 成 为 计算 每 个 人 的 Bacon 数 〈2.1.1 节 ) 的 问题 。 基 本 的 图 搜索 问 
题 (2.1.3 节 ) 对 应 于 确认 所 有 的 满足 dist(s,w) 关 +oo 的 顶点 v 这 种 特殊 情况 。 
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伪 码 


为 了 计算 最 短路 径 , 我们 在 基本 的 BFS 算法 中 添加 了 两 行 代 码 (“BFS 
功能 强化 版 ”的 第 2 行 和 第 9 行 )， 它们 在 算法 中 所 增加 的 运行 时 间 只 是 
一 个 较 小 的 常数 因子 。 前 一 行 代码 对 顶点 最 短 距离 的 估计 值 进行 初始 化 ， 
5 初始 化 为 0， 其 他 顶点 则 初始 化 为 +oo( 即 无 法 从 8 到 达 )。 后 面 一 行 代码 
是 在 顶点 w 初次 被 发 现时 执行 的 ， 它 计算 w 最 终 的 最 短 距离 长 度 ， 就 是 
在 触发 w 被 发 现 的 顶点 v 的 最 短路 径 长 度 的 基础 上 加 1。 












BFS 功能 强化 版 
输入 : 邻接 列表 表示 形式 的 图 G = (VE) 和 顶点 seV. 
完成 状态 : 对 于 每 个 顶点 veV，l(v) 这 个 值 等 于 真正 的 最 短路 径 长 度 dist(s,v)。 





把 s 标记 为 已 探索 ， 所 有 其 他 顶点 标记 为 未 探索 
对 于 每 个 顶点 v#s，1(s) := 0, 1(v) := +oo 
2:= 一 个 队列 数据 结构 ， 用 s 进行 初始 化 
while 0 不 为 空 do 
从 0 的 头 部 删除 一 个 顶点 ， 称 之 为 v 
for 每 条 边 (v, w) 在 的 邻接 列表 中 do 
if w 为 未 探索 then 

















~ JAN. He to DY) 









































QD 问题 陈述 中 “单元 边 长 度 ” 这 个 词 表示 G 的 每 条 边 在 路 径 的 长 度 中 都 表示 1。 第 3 章 对 BFS 进行 了 
延伸 ， 计 算 图 中 每 条 边 的 长 度 为 非 负 值 时 的 最 短路 径 。 
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把 w 标 记 为 已 探索 
1(w) := 1(v) + 1 
10 把 w 添 加 到 0 的 尾部 


\D oo 








例子 和 分 析 

在 我 们 的 演示 例子 〈 见 图 2.8) 中，while 循环 的 第 1 次 友 代 发 现 顶 点 w 和 
b。 由 于 是 s 触发 了 它们 的 发 现 并 且 71(s) = 0， 因 此 算法 把 1(a) 和 1(5) 从 +oo 重 新 赋 
值 为 1， 如 图 2.9 所 示 。 





























边界 


Na)=1 一 Ne)=+om 
(ea (e) 
队列 的 头 部 已 经 被 删除 


[» [eA 
(b)=1 Ko)=+® 


队列 Q 的 状态 











图 2.9 (a) 和 (b) 从 +oo 变 为 1 

while 循环 的 第 2 次 迭代 处 理 顶 点 g， 导 致 c 被 发 现 。 算 法 把 1(c) 从 +oo 重 间 
赋值 为 Ko)+1， 也 就 是 2。 类 似 地 ， 在 第 3 次 迭代 中 ，i(q) 被 设置 为 Ib)+1， 它 的 
值 也 是 2， 如 图 2.10 所 示 。 





























队列 的 头 部 已 经 被 删除 


[ole PAI 


队列 Q 的 状态 








现 





2.10 ”i(q) 被 设置 为 2 

4 次 欠 代 通过 顶点 c 发 现 最 后 一 个 顶点 e， 并 把 I(e) 设 置 为 1(c)+1， 其 值 为 3。 
此 时 ， 对 于 每 个 顶点 v，iv) 等 于 真正 的 最 短路 径 长 度 dist(s,v)， 也 等 于 包含 v 的 
层 的 数量 〈 见 图 2.8)。 这 些 属性 具有 普 适 性 ， 并 不 是 这 个 例子 所 特有 的 。 
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定理 2.2 BFS 功能 强化 版 的 属性 ) 对 于 用 邻接 列表 表示 的 每 个 无 向 


有 问 图 G=( 玫 如 以 及 每 个 起 始 顶点 seV: 


(a) 作为 BFS 功能 强化 版 的 结论 ， 对 于 每 个 顶点 veV，I(v) 的 值 等 于 G 中 从 
5 到 vy 的 最 短路 径 的 长 度 dist(s,v)〈 如 果 不 存在 这 样 的 路 径 ， 那 么 为 +oo); 


(b) BFS 功能 强化 版 的 运行 时 间 是 O(mtn)， 其 中 m=|BI，n=|V 
BFS 功能 强化 版 的 算法 的 渐进 性 运行 时 间 与 BFS 相同 ， 定 理 2.2 


10w) 设 置 
出 现在 全 




















WE 








自 两 个 寻 


来 自 后 者 的 


运作 























为 i( 因 














22:6 


正确 答案 : 
当 n 写 2 时 ， 层 数 不 可 外 


至 少 包含 1 个 顶点 。 路 径 图 


为 隶 是 

















小 测验 2.1 的 答案 


(d)。 具 有 











NN ”2.2 宽度 优先 的 搜索 和 最 短路 径 














时 间 保 证 (定理 2.1 的 第 (b) 部 分 
EE 实 。 首 先 ， 具 有 dist(swv)=i 的 顶点 v 准确 
这 也 是 层 的 定义 方式 。 其 次 ， 对 于 每 个 第 i 层 的 顶点 w，BFS 功能 强化 
通过 第 六 1 层 的 一 个 fo)= 六 1 的 顶点 v 发 现 的 
F 何 层 中 的 顶点 ， 也 就 是 无 法 从 s 到 达 的 顶点 ，dist(s,v) 和 1v)} 


7 过 2 个 顶点 的 无 向 图 





)。 定 到 
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或 
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的 第 (b) 部 














E 2.2 的 (a) 























地 位 于 


图 的 第 i 层 ， 








版 最 终 把 
)。 对 于 没有 








的 是 +oo。 由 











至 少 有 两 个 
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\ 7 
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第 0 层 
图 2.11 一 个 具有 nn 个 顶点 的 
(QD 如 果 需 要 进行 更 严谨 的 证 明 , 可 以 自 





外 ， 定 理 2.2 (a) 是 Dijkstra 的 最 短路 径 算法 





























bE 少 于 2， 因 为 s 是 唯一 位 
两 个 层 〈 见 图 2.7(a))。 层 数 也 不 可 能 超过 n， 因 为 各 个 层 是 互 不 包含 的 ， 每 个 
有 nn 个 层 ( 见 图 





1 0 
1 让 
‘ 
\ ‘ 
\ 站 
A\ 7 
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第 1 层 ”第 2 层 





第 0 








2.11(b))。 


(b) 路 径 图 














可 以 
































正确 1 


层 的 顶点 。 





: 0 
, 1 
1 1 
\ 7 
A\ ‘ 
\ 7 
Wg 





有 2 一 n 个 不 同 的 


MU 


行 演 绎 BFS 功能 强化 版 算法 所 执行 的 while 循环 
生 的 一 种 特殊 情况 ， 就 像 9.3 节 所 证 明 的 那样 。 


层 ， 最 多 有 n 个 层 。 


or 
完全 


图 只 有 








甩 
es: 


的 迭代 次 数 。 另 
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2:3 




















推迟 到 2.6 节 再 进行 讨论 。 
2.3.1 连通 分 量 


无 向 
照 更 正式 的 说 法 ， 连 


Bsa 








在 本 节 中 ，G=( 用 加 总 是 表示 无 向 图 。 




















通 











日 





都 存在 通 向 8 9 
{2,4} 和 {6,8,10}。 








计算 连通 分 量 





图 G=( 有 轧 可 以 很 自然 地 分 为 “片段 ”， 
分 量 是 顶点 SEV 的 


我 们 把 更 有 x 





称 为 连通 











度 的 有 向 














分 








他 任何 顶点 的 路 径 。 "例如 ， 图 


个 最 大 子 外 
































2.12 


有 顶点 




















{1,2,37™ 





多 








,10} 的 


2.12 上 
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G 仍然 采用 更 为 正式 的 说 法 ， 

















的 连 


; 清 
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分 量 











常 是 在 数学 证 明 或 离散 数学 的 








研 
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一 党 课 











介绍 的 。 对 象 集合 





Xx 





可 以 定义 为 一 种 满足 适当 





以 及 它 的 3 个 连通 分 
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满 
连通 





S 
上 且 . 日 
重逢 








耳 





























rt 
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( 见 图 2.12)。 按 
中 的 任何 顶点 
是 {1,3,5,7,9}、 








地 











4 等 价 关 系 的 等 价 类 。 等 价 
上 上 的 二 个 关系 指定 了 





行 一 对 





也 








象 , 无 论 x 和 yy 是 否 相 关 如 细 
G w， 当 且 仅 当 G 中 存在 一 条 


于 每 个 xeXX， 

















要 员 





生 的 ，x~y 仅 当 
均 成 立 ， 那 么 x 一 z 也 成 了 




















都 满足 x~x〔 被 一 








点 v 到 w 的 路 径 连接 到 一 起 ， 


有 关 ， 就 写成 x~y)。 对 
v 到 w 的 路 径 ”。 等 价 关 
G 满足 ， 
y~x (被 一 Cj 











对 象 与 它 所 在 类 的 所 有 对 象 都 








卓 关 














满足 ， 


〈 被 一 G 满足 ， 
多 成 一 条 从 到 w 
只 与 它们 相关 。 关 系 一 











| x, ye 的 对 


关系 





卓 . 6 











于 连通 


分 量 , 相关 





系 (在 集合 VV 上 ) 














> 系 满足 
为 空 路 径 总 是 








大 








足 3 个 属性 。 


日 
i 





先 ， 











自 反 性 


XE 7 


的 ， 即 
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大 








为 G 是 无 向 图 
因为 我 们 可 
的 路 径 ) 























巴 一 个 顶点 与 
)。 最 后 ， 
以 把 一 条 从 顶点 wx 到， 
。 等 价 关 系 把 对 











身 相连 )。 


传递 人 


次 ， 
的 ， 如 果 











它 是 








} 象 集合 划分 为 等 价 类 























G 的 等 价 类 是 G 的 连通 分 量 。 





Rx~y 和 
的 路 径 与 一 


它 是 对 





条 从 项 


每 个 





YN 2.3 计算 连通 分 量 


















































本 节 的 目标 是 使 用 宽度 优先 的 搜索 ， 在 线性 时 间 内 计算 图 的 连通 分 量 。” 





问题 : 无 向 图 的 连通 分 量 
输入 : 无 向 图 G=( 有 太刀 。 
目标 : 确认 G 的 连通 分 量 。 
































接 下 来 ， 我 们 再 次 检查 读者 是 否 完全 理解 了 连通 分 量 的 定义 。 























小 测验 2.2 


分 量 分 别 是 多 少 ? 
(a) 1 和 7-1 
(b)1 和 nn 
(c) 1 和 max(m,n) 
(d) 2 和 max(mn) 
(正确 答案 和 详细 解释 参见 2.3.6 节 .) 





考虑 一 个 具有 n 个 顶点 和 m 条 边 的 无 向 图 ， 它 的 最 小 数量 和 最 大 数量 的 连通 








2.3.2 ”连通 分 量 的 应 用 


下 面 的 原因 可 能 会 使 我 们 对 图 的 连通 分 量 产 生 兴 






























































检测 网 络 失败 。 连 通 分 量 的 一 个 显而易见 的 应 用 是 检查 一 个 网 络 〈 例 如 道路 











网 或 通信 网 ) 是 否 断 开 连 接 。 





数据 可 视 化 。 连 通 分 量 的 另 一 个 应 用 是 图 的 可 视 化 。 如 果 我 们 要 绘制 一 个 图 或 







































































者 获取 该 图 的 某 种 可 视 化 形式 ， 那 么 很 可 能 需要 独立 地 显示 它 的 不 同 连通 分 量 。 
集群 。 假 设 我 们 有 一 个 关心 的 对 象 集 合 ， 其 中 每 一 对 对 象 都 标注 


着 “相似 ” 











或 “不 相似 ” 例如 ， 这些 对 象 可 以 是 文档 (如 被 抓 取 的 网 页 或 新 闻 故 事 )， 类 似 
的 对 象 对 应 于 近似 重复 的 文档 (也许 区 别 仅 在 于 一 个 时 间 惟 或 者 一 个 标题 )。 或 





























(D 其 他 图 搜索 算法 ， 包 括 深度 优先 的 搜索 ， 也 可 以 按照 安全 相同 的 方式 计算 连通 分 量 。 
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者 这 些 对 象 可 能 是 基因 组 ， 如 果 通 过 一 些微 小 的 修改 就 能 够 让 一 个 基 


一 个 基因 











似 对 象 。 从 理论 








， 它 们 就 被 认为 是 相似 的 。 
现在 , 根据 一 个 无 向 图 G=(V,E)， 它 的 顶点 对 应 于 对 象 ， 边 对 应 




































































对 应 于 属于 相同 物种 的 不 同 个 体 。 


2.3.3 ”UCC (无 向 图 连通 分 量 ) 算 ; 














对 





搜索 算法 ， 例 如 
一 次 遍历 ， 当 




















法 过 到 一 个 此 前 没有 过 到 过 
用 BFS。 这 个 外 层 循环 保证 算法 至 少 会 观察 每 个 





无 向 图 的 连通 分 量 可 以 很 方便 地 简化 为 宽度 优先 的 搜索 (或 其 他 图 
深度 优先 的 搜索 )。 它 的 思路 是 使 用 一 个 外 层 循环 对 顶点 进行 
的 顶点 时 ， 就 以 子 程序 的 形式 调 
顶点 1 次 。 在 外 层 循环 之 前 ， 
























































所 有 的 顶点 被 初始 化 为 未 探索 。 这 种 初始 化 并 不 是 发 生 在 菜 个 BFS 


这 个 算法 还 为 每 个 顶点 v 维护 一 个 字段 cc(y)， 
了 这 个 顶点 。 通 过 
Vl,2 3 nN 





完成 状态 


}。 



































UCC 


输入 : 邻接 列表 表示 形式 的 无 向 图 G=(V, E)， 太 {1,2,3,…,n}。 
: 对 于 每 对 uve 了 VV， 当 且 仅 当 w 和 vw 位 于 同一 个 连通 分 量 时 ,cc(u)=cc(V)。 


因 转换 为 另 


于 成 对 的 相 


上 说 ， 这 个 图 的 每 一 个 连通 分 量 表示 一 组 具有 茶 些 共性 的 对 象 。 
例如 ,如 果 对 象 是 被 抓 取 的 新 闻 故 事 , 那么 我 们 可 能 会 期 望 一 个 连通 分 量 的 顶点 
是 同一 个 故事 在 不 同 网 站 上 的 不 同 变形 ; 如 果 对 象 是 基因 组 , 那么 连通 分 量 可 能 

















调用 内 部 。 











于 记录 是 哪个 连通 分 量 包 含 


识别 VV 的 每 个 顶点 在 顶点 数组 中 的 位 置 ， 我 人 

















] 可 以 假设 





numCC 


if 





1 


把 所 有 顶点 标记 为 未 探索 
:= 0 
for 工 : 


n do // 观察 所 有 的 顶点 


i 为 未 探索 then  ”// 避免 元 余 


numCC 


:= numCC + 1 // 新 的 连通 分 量 





// 从 工 开 始 调用 BFS (第 2 一 8 行 ) 
@ := 一 个 队列 数据 结构 ， 用 i 初始 化 
while 0O 非 空 do 

从 @ 的 头 部 删除 顶点 ， 称 之 为 


CC (站 ) 


:= numCC 














for each (vi mw) in 的 邻接 列表 中 do 
iE w 为 未 探索 then 

把 w 标 记 为 已 探索 

把 w 添 加 到 0 的 尾部 








2.3.4 UCC 算法 的 一 个 例子 


让 我 们 追踪 UCC 算法 在 图 2.12 所 示 的 图 上 的 执行 结果 。 这 个 算法 把 所 有 的 
顶点 标注 为 未 探索 ， 并 从 顶点 1 开始 启动 外 层 for 循环 。 这 个 顶点 在 之 前 并 没有 
遇 到 过 ， 因 此 算法 从 它 开 始 调用 BFS。 因 为 BFS 能 找到 以 它 为 起 始 顶 点 的 所 有 
可 到 达 顶 点 (定理 2.1(a))， 所 以 它 发 现 的 顶点 包括 {13,5,7,9}， 并 把 它们 的 cc 
设置 为 1。 图 2.13 所 示 的 是 一 种 可 能 的 探索 顺序 
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连通 分 量 #1 








加 





2.13 ”UCC 算法 的 探索 顺序 


当 这 个 BFS 调用 完成 时 , 算法 的 外 层 for 循环 继续 执行 并 考虑 顶点 2。 由 于 
这 个 顶点 在 第 1 个 BFS 调用 之 前 并 没有 被 发 现 ， 因 此 算法 以 顶点 2 为 起 始 顶 点 
次 调用 BFS。 发 现 顶 点 2 和 4 并 把 它们 的 cc 值 设置 为 2) 之 后 ， ee 
调用 就 完成 ， 并 且 UCC 算法 继续 执行 它 的 外 层 for 循环 。 算 法 在 此 前 探索 过 
en 
次 是 在 第 2 个 BFS 调用 中 探索 的 。 那 么 顶点 5 呢 ? 仍然 见 到 过 ， 是 在 第 1 个 BFS 
调用 中 探索 的 。 但 顶点 6 呢 ? 之 前 的 两 个 BFS 调用 没有 发 现 这 个 顶点 ， 因 此 算 
法 以 顶点 6 为 起 始 顶 点 再 次 调用 BFS。BFS 的 第 3 次 调用 发 现 了 顶点 {6,8,10}， 
并 把 它们 的 cc 值 设 置 为 3， 如 图 2.14 所 示 。 
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#8 





#9 #10 
连通 分 量 #1 连通 分 量 #3 
2.14 UCC 算法 的 探索 过 程 


最 后 ， 这 个 算法 证 实 剩余 的 顶点 (7、8、9 和 10) 均 已 被 探索 ， 因 此 算法 终止。 
2.3.5 UCC 算法 的 正确 性 和 运行 时 间 
UCC 算法 可 以 正确 地 计算 无 向 图 的 连通 分 量 ， 并 且 它 的 运行 时 间 是 线性 时 间 。 


定理 2.3〈UCC 的 属性 ) 对 于 用 邻接 列表 形式 表示 的 每 个 无 向 图 GC=(P 万 : 


(a) 当 UCC 完成 ， 对 于 每 对 顶点 u,v， 当 且 仪 当 w 和 vw 属于 G 的 同一 个 连 
通 分 量 时 ，cc(w)=cce@y); 































































































(b) UCC 的 运行 时 间 是 O(m+n)， 其 中 m=|&|，n=|V|。 


证 明 : 关于 这 个 算法 的 正确 性 ， 宽度 优先 的 搜索 的 第 一 个 属性 (定理 2.1 (a)) 
说 明了 以 顶点 i 为 起 始 顶 点 的 每 个 BFS 调用 将 发 现 i 的 连通 分 量 中 的 顶点 , 而 不 
会 发 现 不 属于 该 连通 分 量 的 顶点 。UCC 算法 为 这 些 顶点 提供 了 一 个 相同 的 cc 值 。 
由 于 不 存在 任何 顶点 会 被 探索 两 次 ， 因 此 每 次 BFS 调用 会 识别 一 个 新 的 连通 分 
量 ， 并 且 每 个 连通 分 量具 有 不 同 的 cc 值 。 由 于 外 层 for 循环 保证 每 个 顶点 至 少 会 
被 访问 1 次 ， 因 此 这 个 算法 将 发 现 每 个 连通 分 量 。 

这 个 算法 的 运行 时 间 下 界 来 自 于 细 化 的 BFS 运行 时 间 分 析 〈 定 理 2.1 (c))。 
以 顶点 i 为 起 始 顶 点 调用 BFS 的 运行 时 间 是 Olmitn;))， 其 中 mi; 和 nj 分别 表示 i 
的 连通 分 量 中 边 的 数量 和 顶点 的 数量 。 因 为 对 于 每 个 连通 分 量 ，BFS 只 调用 了 
1 次 ， 所 以 G 的 每 个 顶点 或 每 条 边 正好 只 参与 了 1 个 连通 分 量 。 因 此 ， 所 有 BFS 


a 
辅助 操作 只 需要 On) 时间， 因此 最 终 的 运行 时 间 是 O(m+n)。 
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2.3.6 小 测验 2.2 的 答案 


正确 答案 : (pb)。 只 有 1 个 连通 分 量 的 图 就 是 可 以 从 任何 一 个 顶点 到 达 其 他 
任何 一 个 顶点 的 图 。 路 径 图 和 完全 图 〈 见 图 2.7) 就 是 两 个 这 样 的 例子 。 另 一 种 
极端 情况 是 没有 任何 边 的 图 ， 每 个 顶点 位 于 自己 的 连通 分 量 中 ， 连 通 分 量 的 总 数 
为 n。 一 个 图 的 连通 分 量 不 可 能 超过 个 ， 因 为 每 个 连通 分 量 是 互 不 包含 的 ，3 
且 每 个 连通 分 量 至 少 包含 1 个 顶点 。 











































































































2.4 深度 优先 的 搜索 














我 们 为 什么 需要 另 一 种 图 搜索 策略 呢 ? 不管 怎么 说 ， 宽 度 优先 的 搜索 看 上 去 
是 非常 出 色 的 ， 它 可 以 在 线性 时 间 内 找到 从 起 始 顶 点 可 以 到 达 的 所 有 顶点 ， 并 且 
顺便 可 以 计算 最 短路 径 的 长 度 。 

另外， 还 有 一 种 线性 时 间 的 图 搜索 策略 ， 即 深度 优先 的 搜索 (DFS)， 它 也 具 
有 大 量 的 应 用 (并 没有 被 BFS 所 涵盖 )。 例 如 ， 我 们 将 看 到 如 何 使 用 DFS 在 线性 时 
间 内 计算 有 向 无 环 图 的 顶点 拓扑 顺序 以 及 有 向 图 的 连通 分 量 〈 具 有 适当 的 定义 )。 


2.4.1 DFS 的 一 个 例子 


如 果 说 宽度 优先 的 搜索 采取 的 是 一 种 小 心 谨慎 且 充 满 试探 意味 的 探索 策略 ， 那 
么 深度 优先 的 搜索 则 采取 了 一 种 更 为 激进 的 探索 策略 , 它 总 是 从 最 近 发 现 的 顶点 开始 
向 前 探索 ， 只 有 在 前 方 走 投 无 路 的 情况 下 才 会 回 湖 《有 点 像 探 索 迷 宫 )。 在 描述 DFS 
的 完整 伪 码 之 前 ， 我 们 先 观察 它 在 2.2 节 的 同一 个 例子 中 是 怎样 工作 的 〈 见 图 2.15)。 









































































































































































































































图 2.15 ”深度 优先 的 搜索 的 演示 例子 
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与 BFS 相似 ，DFS 在 第 1 次 发 现 一 个 顶点 时 把 它 标 注 为 已 探索 。 由 于 它 是 从 起 
始 顶 点 s 开始 探索 的 ， 因 此 对 于 图 2.15 所 示 的 图 ，DFS 的 第 1 次 返 代 检 查 边 (wa 和 
(s,b)， 谁 先 谁 后 取决 于 它们 在 s 的 邻接 列表 中 的 先后 顺序 。 假 设 (s,q) 首 先 出 现 ，DFS 
检查 顶点 a 并 把 它 标 注 为 已 探索 。DFS 的 第 2 次 迭代 就 是 它 与 BFS 的 区 别 所 在 ， 它 
接 下 来 并 不 是 考虑 男 一 个 第 1 层 的 邻居 4b， 而 是 立即 继续 探索 a 的 邻居 。 它 最 终 会 回 
来 探索 (s,bp)。 从 a 开始 ，DFS 首先 检查 的 也 许 是 s (此 时 s 已 经 被 标注 为 已 探索 ， 因 























































































































此 被 跳 过 )， 然 后 它 发 现 项 点 ce， 这 是 下 一 站 所 探索 的 项 点 ， 如 图 2.16 所 示 。 


边界 











图 2.16 DFS 下 一 站 所 探索 的 顶点 




















DFS 按照 某 种 顺序 检查 最 近 发 现 的 顶点 c 的 邻居 。 为 了 更 加 有 趣 , 我 们 假设 
DFS 接着 发 现 gd， 然后 是 e， 如 图 2.17 所 示 。 


#2 #5 






































图 2.17 DFS 发 现 顶点 c 后 的 探索 顺序 











在 发 现 了 e 之 后 ，DFS 就 没 法 继续 前 进 ， 因 为 e 的 两 个 邻居 已 经 被 标注 为 已 探 
索 。DFS 被 强制 回 撤 到 前 一 个 顶点， 也 就 是 4， 并 继续 探索 它 的 剩余 邻居 。 从 4d 这 个 
位 置 ，DFS 将 发 现 最 后 一 个 顶点 5 也许 是 在 检查 了 c 并 发 现 它 已 经 被 标注 为 已 探索 
之 后 )。 在 探索 到 b 之 后 ， 探 索 过 程 就 有 了 重大 进展 。DFS 发 现 的 所 有 邻居 都 已 控 
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索 ， 因 此 必须 回溯 到 前 一 个 访问 过 的 顶点 ， 也 就 是 4。 类 似 地 ， 由 于 4 的 所 有 剩余 邻 
居 已 经 被 标注 为 已 探索 , 因此 DFS 必须 继续 回溯 到 c。 然后 , DFS 进一步 回溯 到 a (在 
检查 了 c 的 所 有 剩余 邻居 项 点 并 发 现 它们 都 已 经 被 标注 为 已 探索 之 后 )。 接 着 ， 它 回 
溯 到 s。 它 检查 s 的 剩余 邻居 (5〉 并 在 发 现 它 已 经 被 标注 为 已 探索 之 后 就 最 终 停止 。 


2.4.2 ”DFS 的 伪 码 

迭代 式 实 现 
思考 和 实现 DFS 的 一 种 方法 是 从 BFS 的 代码 入 手 并 进行 两 处 修改 : 
(a) 把 队列 数据 结构 (先进 先 出 ) 替换 为 堆栈 "数据 结构 (后 进 先 出 ); 


(b) 推迟 检查 某 个 顶点 是 否 已 经 被 标注 为 已 探索 ， 直 到 把 它 从 数据 结构 中 删 
除 时 再 进行 检查 。? 






































































































































































































































DFS ( 迭代 式 版 本 ) 
输入 : 邻接 列表 表示 形式 的 图 G = (V,E) 和 顶点 se 了 
完成 状态 : 当 且 仅 当 一 个 顶点 被 标注 为 “已 探索 ”时 ， 它 是 可 以 从 s 到 达 的 。 





把 所 有 顶点 标注 为 已 探索 
S := 一 个 堆栈 数据 结构 ， 用 s 初始 化 
while 3S 非 空 do 
从 S 的 头 部 删除 (“弹出”) 顶点 
if  v 为 未 探索 then 
把 标注 为 已 探索 
for vV 的 邻接 列表 中 的 每 条 边 (v,w) do 
把 w 添 加 (“ 压 入 ”) 到 5s 的 头 部 






































和 往常 一 样 ， 在 for 循环 中 处 理 的 边 是 与 v 相关 联 的 (如 果 G 是 无 向 图 ) 或 
者 是 从 v 出 发 的 (如 果 G 是 有 向 图 )。 





























QD 堆栈 是 一 种 “后 进 先 出 ”的 结构 数据 ， 就 像 餐 馆 里 从 上 到 下 堆 在 一 起 的 盘子 一 样 。 它 通常 是 第 一 门 编程 课 
所 学 习 的 一 种 数据 结构 〈 包 括 队 列 ， 参 见 2.2.2 节 的 脚注 )， 堆 栈 维护 一 个 对 象 列 表 ， 我 们 可 以 在 常数 时 间 
内 从 这 个 列表 的 起 始 位 置 添加 一 个 对 象 “ 压 入 ”)， 或 者 从 列表 的 起 始 位 置 删除 一 个 对 象 弹出”)。 

@ 如 果 我 们 仅 进 行 第 一 处 修改 ， 这 个 算法 的 行为 仍然 一 样 吗 ? 
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草 





例如 ， 在 图 2.15 9 























会 





居 顶 点 按照 菜 种 顺 











先 被 压 入 )。 在 下 一 次 迭 代 吕 


图 的 搜索 及 其 应 用 上 


























kt 过 它 。 然 后 c 被 中 





出 ， 接 着 它 的 所 有 的 邻 


FL 


训 《例如 先 b 后 gc) 压 入 到 堆栈 中 。1 
它 在 while 循环 的 第 2 次 迭代 中 首先 被 弹出 。 这 就 导致 * 和 c 被 压 入 到 堆栈 中 (假设 c 
























































h，DFS 的 while 循环 的 第 1 次 从 代 弹出 顶点 s 并 把 它 的 两 个 邻 
于 4 是 后 来 被 压 入 的 ， 


因此 








P， 顶 点 s 被 弹出 。 由 于 它 已 经 被 标 尘 





为 已 探索 ， 因 此 入 


























居 (qa、b、qd 和 e) 被 压 入 到 


























法 








储 栈 中 ， 和 


最 早 被 压 入 的 5 放 在 一 起 。 如 果 4 是 最 后 被 压 入 的 ， 并 且 好 是 在 e 之 前 被 压 入 的 ， 那 


么 , 当 d 在 下 一 次 迭代 中 被 弹出 








递归 式 实 现 








深度 优先 的 搜索 还 有 一 种 优雅 的 递归 式 实现 。 


DFS ( 递归 版 本 ) 














(0 


输入 : 邻接 列表 表示 形式 的 图 G= (VE) 和 顶点 seV. 
完成 状态 : 一 个 顶点 当 且 仅 当 它 被 标记 为 “已 探索 ”时 才 是 可 以 从 8 到 达 的 。 





时 , 就 恢复 了 2.4.1 节 介 绍 的 探索 顺序 (可 以 进行 验证 


We 





o 





把 








s 标记 为 已 探索 





for 每 条 边 (s, v) 在 s 的 邻接 列表 中 


if Vv 为 未 探索 then 


DFS (GyvV) 


// 在 外 层 调用 之 前 ， 所 有 的 顶点 都 是 未 探索 的 





do 











在 这 个 实现 中 ， 所 有 的 DFS 递归 调用 者 








访问 同一 组 全 局 变量 ， 这 些 变量 记 





录 哪 些 顶 点 已 经 被 标记 为 已 探索 (一 开始 所 有 的 顶点 都 是 未 探索 的 )。DFS 的 激 











上 























本 书 假设 读者 已 经 熟悉 递归 。 递 归 过 程 就 是 将 它 上 
E 顶 点 的 邻接 列表 中 











其 所 述 , 这 两 个 版 本 
中 


如 
如 果 划 





























的 DFS 在 


个 版 本 进行 了 修改 , 对 顶点 


进 本 质 或 许 在 这 个 实现 中 更 为 明 
行 递归 ,然后 考虑 剩余 
的 显 式 堆栈 数据 结构 被 递归 实现 中 递归 调 





下 
小， 














的 邻居 顶点 。“ 其 效果 就 是 DFS 四 











的 程 ) 








} 




















储 栈 所 模拟 。” 




















身 作为 子 程 























照相 同 的 顺序 对 顶点 进行 探索 。 


专家 级 提示 : 


如 果 计 算 


机 在 





一 个 大 型 





安 相 反 的 顺 




















I 邻接 列表 过 


字 j 





行 调 用 











子 对 
行 反 向 和 迭代, 那么 迭 








边 ) 








这 个 算法 立即 对 它 所 找到 的 第 1 个 未 探索 邻 
的 和 代 式 实现 中 


行 探索 。( 能 明白 为 什么 吗 ? ) 














区 | 














代 版 本 或 者 在 计算 机 


不 境 中 扩大 程序 





准 栈 。 





代 式 实现 和 递归 式 实现 就 按 


上 执行 递归 版 本 的 DFS 时 导致 内 在 耗 竟 ， 那 么 可 以 切换 为 迭 


YN 2.5 拓扑 排序 


2.4.3 ”正确 性 和 运行 时 间 
深度 优先 的 搜索 与 宽度 优先 的 搜索 具有 同样 的 正确 性 ， 并 且 速 度 也 是 同样 快 
























































原因 也 是 一 样 的 (与 定理 2.1 对 比 )。 


























定理 2.4 (DFS 的 属性 ) 对 于 每 个 用 邻接 列表 表示 的 无 向 图 或 有 向 图 G=(V,E) 
以 及 每 个 起 始 顶 点 seV: 


(a) 当 DFS 完成 ， 当 且 仅 当 G 中 存在 一 条 从 s 到 vy 的 路 径 时 ， 顶 点 veV 才 
被 标记 为 已 探索 ; 


(b) DFS 的 运行 时 间 是 (m+n)， 其 中 m=|&|，n=|Y|。 


Ye 























(a) 成 立 的 原因 是 深度 优先 的 探索 是 通用 的 图 搜索 算法 GenericSearch 
a 种 特殊 情况 。” 














结论 (b) 成 立 的 原因 是 DFS 对 于 每 条 边 最 多 检查 两 次 (每 个 端点 最 多 1 次 )， 











并 且 堆 











作 (总 


栈 支 持 O(1) 时 间 的 压 入 和 弹出 ， 对 每 条 边 的 检查 可 以 实现 常数 时 间 的 操 
共 O(m))。 初 始 化 需要 O(n) 时 间 。® 





2.5 拓扑 排序 











深度 优先 的 搜索 很 好 地 契合 了 计算 有 向 无 环 图 的 拓扑 顺序 。 那 么 ， 拓 扑 顺序 





是 什么 总 


2 








意思 ? 它 有 什么 用 途 呢 ? 


拓扑 顺序 











想象 一 下 ， 我 们 有 一 连 串 需要 完成 的 任务 ， 并 且 这 些 任务 之 间 存 在 优先 级 约 









































GD 从 形式 上 来 说 ，DFS 相当 于 GenericSearch 的 一 种 特定 版 本 。 在 这 个 版 本 中 ， 在 GenericSearch 的 主 循 


环 的 
么 根 
@ 定理 


























每 次 迭代 时 ,对 于 最 近 发 现 的 v， 这 个 算法 选择 可 处 理 的 边 (v, w)。 如 果 存 在 多 条 可 处 理 的 边 ， 那 














据 它 们 在 * 的 邻接 列表 中 的 顺序 (递归 版 本 ) 或 者 相反 顺序 〈 人 迭代 版 本 ) 进行 选择 。 
2.1 (c) 部 分 优化 后 的 边界 对 于 DFS 也 是 成 立 的 (原因 相同 )， 这 意味 着 DFS 可 以 在 线性 时 间 




































































的 UCC 算法 中 代替 BFS， 用 于 2.3 节 的 连通 分 量 计算 。 
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束 ,， 意思 是 有 些 任 务必 须 在 另 一 些 人 














[4 















































E 务 完成 之 后 才能 开始 。 例如， 考虑 一 所 大 学 





的 学 位 课程 ， 有些 课程 是 其 他 一 些 课 程 的 先决 条 件 。 拓扑 顺序 的 一 个 应 用 就 是 排 


























列 任务 的 先后 顺序 ， 以 满足 它们 之 间 的 优先 级 约束 。 


拓扑 顺序 


假设 G=(E) 是 个 有 向 图 。G 的 拓扑 顺序 就 是 为 每 个 顶点 vE 严 的 1) 分 配 一 个 


不 同 的 数字 ， 使 得 : 
对 于 每 条 有 向 边 (v,w)eE， 


均 满 足 fy)<flw)。 




















函数 有效 地 对 顶点 进行 了 排序 ， 从 具有 最 小 f 值 的 顶点 到 具有 最 大 f 值 的 
顶点 。 这 个 条 件 断 言 G 的 所 有 《有 向 ) 边 应 该 按照 这 个 顺序 的 方向 向 前 访问 ， 








(a) 0 
(b) 1 
(c)2 
(d)3 





下 面 的 图 具有 多 少 种 不 同 的 拓扑 顺序 ? 




















每 条 边 的 尾 顶 点 的 了 值 小 于 它 的 头顶 点 的 / 值 。 


小 测验 2.3 


(正确 答案 和 详细 解释 参见 2.5.7 节 。) 


(只 使 用 标签 {1, 2, 3, 4} ) 


























我 们 可 以 根据 顶点 的 了 值 顺序 来 描绘 顶点， 显示 它们 的 拓扑 








扑 顺序 中 ， 图 的 所 有 边 都 是 按照 从 左 到 右 的 顺序 描绘 的 。 图 2.18 








的 解决 方案 所 确认 的 拓扑 | 
































质 序 。 








田 








贰 序 。 在 一 个 拓 


绘 了 小 测验 2.3 
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i G 
(s) SEA 
1 2 


(a) 一 种 拓扑 顺序 (b) 另 一 种 拓扑 顺序 


图 2.18 拓扑 顺序 有 效 地 在 一 条 直线 上 描绘 了 图 的 顶点， 所 有 的 
边 都 是 按照 从 左 到 右 的 方向 描绘 的 
































当 一 个 图 的 顶点 表示 任务 ， 并 且 有 向 边 表示 优先 级 约束 时 ， 拓 扑 顺序 就 准确 
地 对 应 于 任务 的 不 同 序列 化 方式 ， 同 时 遵循 优先 级 约束 。 


2.5.2 ”什么 时 候 存 在 拓扑 顺序 


是 不 是 每 个 图 都 存在 拓扑 顺序 呢 ? 不 是 。 我 们 可 以 考虑 一 个 只 由 一 个 有 向 环 
组 成 的 图 〈 见 图 2.19(a) )。 无 论 我 们 选择 什么 样 的 顶点 顺序 ， 沿 着 这 个 环 的 边 向 
前 访问 总 是 可 以 到 达 起 始 顶 点 。 在 存在 拓扑 顺序 时 ， 必 须 沿 着 某 条 边 反 向 访问 才 
能 做 到 这 一 点 〈 见 图 2.19(b) )。 


f 
(a) 一 个 有 向 环 (b) 一 种 非 拓扑 顺序 
图 2.19 只 有 不 存在 有 向 环 的 图 才 具 有 拓扑 顺序 

作为 一 个 普遍 的 结论 ， 我 们 无 法 确定 包含 有 向 环 的 图 的 拓扑 顺序 。 这 相当 于 
不 可 能 把 一 组 存在 环 状 依赖 性 的 任务 进行 序列 化 。 

令 人 和 愉快 的 是 ， 有 向 环 是 拓扑 顺序 唯一 的 障碍 。 没 有 任何 有 向 环 的 有 向 图 称 
为 有 向 无 环 图 ， 或 简称 DAG。 例 如 ， 图 2.18 中 的 图 是 有 向 无 环 图 ， 图 2.19 中 的 
图 则 不 是 有 向 无 环 图 。 

定理 2.5 《每 个 DAG 都 具有 拓扑 顺序 ) ”每 个 有 向 无 环 图 至 少 具有 1 个 拓 
扑 顺序 。 


























































































































































































































































































































43 


44 








第 2 章 图 的 搜索 及 其 应 用 上 


为 了 证 明 这 个 定 下 
图 的 起 始 顶点 是 指 没有 入 射 边 的 顶点 。 
外 向 边 的 顶点 。) 例如 ， 在 图 2.18 所 示 的 图 中 ，s 是 只 














!， 我 们 需要 下 二 


















































的 有 向 图 不 存在 任何 起 始 顶 点 。 


辅助 结论 2.1 〈 每 个 DAG 都 具有 起 始 顶点 ) ” 每 个 有 向 无 环 图 至 少 具 有 1 个 





起 始 顶 点 。 



































辅助 结论 2.1 是 正确 的 ， 

















任意 一 个 顶点 出 发 一 路 六 

















形成 一 个 环 ， 而 这 是 不 可 能 的 )。 另 参见 图 2.20。” 













































































因为 如 果 我 们 治 着 入 射 边 的 反方 
f 进 ， 最 终 都 可 以 到 达 一 个 起 始 顶点 〈 和 否则 ， 这 个 过 程 会 








这 个 与 起 始 顶 点 有 关 的 辅助 结论 。 有 问 
(类 似 地 ， 槽 顶点 (sink vertex) 是 指 没 有 
的 起 始 顶 点 。 图 2.19 中 



































向 从 有 向 无 环 图 的 


























图 2.20 ”从 一 个 项 点 出 发 沿 着 入 射 边 的 反方 向 前 进 ， 只 有 在 
图 中 存在 有 向 环 时 才 无 法 找到 起 始 顶 点 
为 了 证 明定 理 2.5， 我 们 可 以 从 左 到 右 用 连续 提 


顺序 。? 

















区 的 起 始 顶 点 生成 一 个 拓扑 





定理 2.5 的 证 明 : 设 G 是 一 个 包含 个 顶点 的 有 向 无 环 图 。 我 们 的 计划 是 按 





























QD 按照 更 正式 的 说 法 ， 从 一 个 有 向 无 环 图 G 中 挑选 一 个 顶点 wp， 如 果 它 是 起 始 项 点 ， 就 满足 要 求 。 如 果 
























































在 
要 么 找到 一 个 起 始 项 点 ， 要 
大 
成 

@ 采 
槽 顶点 ， 我 们 可 以 从 右 向 左 





它 不 是 起 始 项 点 ， 那 么 它 至 少 有 一 条 入 射 边 (vi, vo)。 如 一 






















































































另外 的 方法 ， 在 辅助 结论 2.1 的 证 明 中 治 着 外 射 边 而 不 是 入 射 边 显示 了 每 


























连续 提取 的 槽 顶点 生成 一 个 拓扑 顺 











是 起 始 顶点 ， 就 满足 要 求 。 否 则 ， 至 少 存 
:一 条 (w, wi) 形式 的 入 射 边 ， 然 后 可 以 再 次 迭代 。 在 最 多 迭代 了 壮 次 之 后 〈 其 中 
么 生成 一 个 n 条 边 的 序列 QV DO V2 (v1, v0)。 

















比 序列 ,vw-1,…, w 中 至 少 有 1 个 重复 项 点。 但 是 ， 如 果 存 在 广 i 且 久 =V， 那 么 边 G@y, v0)…,Qit4, 就 
了 一 个 有 向 环 ， 这 就 与 G 是 有 向 无 环 图 的 前 提 矛 盾 。( 在 图 2.20 


中 , i=2, j=8。) 





n 是 顶点 的 数量 ), 我 们 
于 一 共 只 有 个 顶点 ， 


Ms 









































RSSY 











个 DAG 至 少 具 有 1 个 











2.5 拓扑 排序 “45 


照 升序 从 1 到 为 每 个 顶点 分 配 一 个 / 值 。 哪 个 顶点 拥有 作为 其 7/ 值 的 权利 呢 ? 
它 最 好 是 个 起 始 顶 点 ， 因 为 如 果 是 一 个 具有 入 射 边 的 顶点 被 分 配 了 这 个 权限 ， 那 
么 这 条 入 射 边 在 这 个 拓扑 顺序 中 就 是 反方 向 的 。 因 此 ， 假 设 妆 是 G 的 一 个 起 始 
顶点 (辅助 结论 2.1 证 明了 有 向 无 环 图 必定 存在 起 始 顶点 )， 并 分 配 fw1)=1。 如 
果 G 中 有 多 个 起 始 顶点 ， 就 任意 挑选 一 个 。 


接着 , 在 G 中 删除 vi 以 及 它 的 所 有 边 , 得 到 图 G'。 由 于 G 是 个 有 向 无 环 图 ， 
因此 G' 同 样 如 此 ， 这 是 因为 删除 一 些 东西 并 不 会 创建 新 环 。 因 此 ， 我 们 可 以 使 
用 标签 {2,3,4,…,n} 递 归 地 计算 G 的 一 个 拓扑 顺序 ， 并 且 G' 中 的 每 条 边 都 是 按照 
这 个 拓扑 顺序 向 前 访问 。( 由 于 每 个 递归 调用 是 在 一 个 更 小 的 图 上 进行 的 ， 因 此 
递归 过 程 最 终 会 停止 。) G 中 不 属于 G 的 边 就 只 有 六 的 〈 外 射 ) 边 。 由 于 fvi)=1， 
因此 它们 也 是 按照 这 个 拓扑 顺序 向 前 访问 的 。” 


2.5.3 ”计算 拓扑 顺序 


定理 2.5 表示 当 且 仅 当 一 个 有 向 图 是 有 向 无 环 图 时 ， 求 它 的 拓扑 顺序 才 是 
有 意义 的 。 
















































































































































































































































































问题 : 拓扑 排序 
输入 : 有 向 无 环 图 G=(V,E)。 
输出 : G 的 顶点 的 一 个 拓扑 顺序 。 


辅助 结论 2.1 和 定理 2.5 的 证 明 很 自然 地 产生 了 一 种 算法 。 对 于 一 个 用 邻接 
列表 表示 的 包含 n 个 项 点 的 有 向 无 环 图 ， 前 者 的 证 明 产 生 了 一 种 寻找 一 个 起 始 顶 
点 的 O0D) 时 间 级 的 子 程序 。 后 者 的 证 明 计 算 这 个 子 程序 的 n 次 调用 所 形成 的 一 
个 拓扑 顺序 ， 它 是 在 每 次 迭代 时 去 掉 一 个 新 的 起 始 顶 点 。“ 这 个 算法 的 运行 时 间 
是 O(n )， 对 于 稠密 图 (具有 m=OB(n ) 条 边 ) 而 言 是 线性 时 间 ， 但 对 于 稀疏 图 (x 
远 远 大 于 m) 而 言 却 非 如 此 。 接 下 来 我 们 将 讨论 一 个 更 为 巧妙 的 解决 方案 , 通过 







































































































































































(D 如果 更 倾向 于 形式 证 明 ， 那 么 可 以 自行 对 顶点 的 数量 进行 归纳 证 明 。 
@ 对 于 图 2.12 中 的 图 ， 这 个 算法 可 以 计算 两 个 拓扑 顺序 的 任何 一 个 ,取决 于 在 s 被 删除 之 后 ,， ”和 疼 哪 
一 个 在 第 二 次 迭代 时 被 选 为 起 始 顶 点 。 
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深度 优先 的 搜索 ， 产 生 一 


























线性 时 间 (O(m+n)〉 的 算法 。® 
2.5.4 通过 DFS 的 拓扑 排序 


这 种 计算 拓扑 顺序 的 巧妙 方法 是 通过 两 种 微妙 的 手段 对 深度 优先 的 搜索 
进行 强化 。 简 单 起 见 ， 我 们 把 2.4 节 的 DFS 递归 实现 作为 起 点 。 第 一 处 强化 是 
在 一 个 外 层 循环 中 对 顶点 进行 一 遍 访问 ， 每 当 发 现 一 个 以 前 未 探索 的 顶点 时 就 
以 子 程序 的 形式 调用 DFS。 这 就 可 以 保证 每 个 顶点 最 终 会 被 发 现 并 分 配 一 个 标 
签 。 全 局 变量 curLabel 记录 当前 处 于 拓扑 顺序 中 的 什么 位 置 。 我 们 的 算法 计 
的 是 一 个 相反 的 顺序 (从 右 到 左 )， 因 此 curLabel 需要 从 顶点 的 数量 倒 计 
到 1。 


































































































TopoSort 
输入 : 邻接 列表 表示 形式 的 有 向 无 环 图 G= (7, EE)。 
完成 状态 : 顶点 的 f 值 构成 了 G 的 一 个 拓扑 顺序 。 





把 所 有 顶点 标记 为 未 探索 
curLabel :=|V| // 记录 顺序 
for 每 个 VeV do 

if v 为 未 探索 then // 在 一 个 之 前 的 DFS 中 


DFS-Topo (G,v) 


























其 次 ， 我 们 必须 在 DFS 中 添加 一 行 代码 ， 为 顶点 分 配 一 个 了 值 。 这 个 操作 
的 正确 时 机 就 是 在 从 v 所 启动 的 DFS 刚刚 完成 的 时 候 。 





























DFS-Topo 
输入 : 用 邻接 列表 表示 的 有 向 无 环 图 G= (太刀 和 顶点 Se 斤 
完成 状态 : 每 个 可 以 从 s 到 达 的 顶点 被 标记 为 “已 探索 ”并 分 配 一 个 f 值 。 





把 s 标记 为 已 探索 











(D 只 要 稍 加 思索 ， 辅 助 结论 2.1 和 定理 2.5 的 证 明 所 隐 含 的 算法 也 可 以 在 线性 时 间 内 实现 ， 明 白 该 怎么 
做 到 这 一 点 吗 ? 








3 2.5 拓扑 排序 





for 每 条 边 (s,v) 在 s 的 外 向 邻接 列表 do 
if Vv 为 未 探索 then 
DFS-Topo (G,v) 
f(s) := curLabel // s 的 位 置 符 合 顺序 
curLabel := curLabel -1 // 从 右 向 左 进行 操作 











2.5.5 拓扑 排序 的 一 个 例子 


假设 输入 图 是 小 测验 2.3 中 的 图 。TopoSort 算法 把 全 局 变量 curLabel 初 
台 化 为 顶点 的 数量 ， 也 就 是 4。TopoSort 的 外 层 循环 按照 一 种 任意 的 顺序 对 项 
点 进行 迭代 ， 我 们 假设 按照 六 大 Sm 的 顺序 。 在 第 1 次 迭代 中 ， 由 于 v 并 没 
有 被 标记 为 已 探索 ， 因 此 算法 以 顶点 v 为 起 点 调用 DFS-Topo 子 程序 。 从 ” 出 
发 的 唯一 外 射 边 是 及， 下 一 步 就 是 以 顶点 1 为 起 点 递归 地 调用 DFS-Topo。 这 
个 调用 立即 返回 (因为 t 不 存在 任何 外 射 边 )， 此 时 XD 被 设置 为 4， 并 
curLabel 从 4 减少 为 3。 接 着， 以 v* 为 起 点 的 DFS-Topo 调用 完成 (因为 
没有 其 他 外 射 边 )， 此 时 ftv) 被 设置 为 3，curLabel 从 3 减 小 为 2。 在 这 个 上 
候 ，TopoSort 算法 继续 在 外 层 循环 中 对 顶点 进行 线性 扫描 。 下 一 个 顶点 是 4 
由 于 上 已 经 在 第 1 个 DFS-Topo 调用 中 被 标记 为 已 探索 ， 因 此 TopoSort 算法 将 
跳 过 它 。 由 于 再 下 一 个 顶点 (s) 还 没有 被 探索 ， 因 此 算法 以 8 为 起 点 调用 
DFS-Topo。 从 s 开始 ，DFS-Topo 跳 过 v( 它 已 经 被 标记 为 已 探索 )， 并 以 新 发 
现 的 顶点 w 为 起 点 递归 地 调用 DFS-Topo。 以 w 为 起 点 的 调用 立即 完成 ( 它 的 
唯一 外 射 边 是 到 已 经 探索 过 的 顶点 1)， 此 时 ftw) 被 设置 为 2， 并 且 curLabel 
从 2 减 小 为 1。 最 后 ， 以 顶点 * 为 起 点 的 DFS-Topo 调用 完成 ，js) 被 设置 为 1 。 
最 终 产 生 的 拓扑 顺序 与 图 2.19(b) 相 同 。 
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小 测验 2.4 
当 TopoSort 算法 运行 于 一 个 包含 有 向 环 的 图 时 会 发 生 什么 情况 ? 
(a ) 算法 可 能 会 无 限 循环 ， 也 可 能 不 会 。 
(b ) 算法 总 是 会 无 限 循环 。 
(c ) 算法 总 是 会 终止 ， 可 能 会 成 功 地 计算 出 一 个 拓扑 顺序 ， 也 可 能 无 法 计算 。 
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(d) 算法 总 是 会 终止 ， 不 可 能 计算 出 一 个 拓扑 顺序 。 


(正确 答案 和 详细 解释 参见 


2.5.7 节 .) 





2.5.6 ”正确 性 和 运行 时 间 


TopoSort 算法 能 够 正确 地 计算 有 疝 无 环 图 的 





时 间 内 实现 。 


定理 2.6 〈TopoSort 的 属性 ) ”对 于 每 个 采 月 





而 








C=( 六 万): 









































一 个 拓扑 顺序 ， 并 且 能 在 线性 




















邻接 列表 表示 形式 的 有 向 无 环 


(a) 当 TopoSort 结束 时 ， 每 个 顶点 v 都 分 配 了 一 个 f 值 ， 这 些 f 值 构成 了 G 的 


一 个 拓扑 顺序 ; 


(b) TopoSort 的 运行 时 间 是 O(m+tn)， 其 中 m= 
证 明 : 一 般 情 况 下 ，TopoSort pes ta de 它 对 每 条 边 只 探 1 








次 (从 边 的 尾 顶 点 开始 )， 因 




















此 对 每 个 顶点 或 每 条 边 


味 着 它 的 整体 运行 时 间 是 Om+n)。 


























关于 正确 性 ,首先 注意 DFS-Topo 对 于 每 个 顶点 ve 严正 好 只 调用 1 次 , 就 是 





Bal, n=|V|。 





行 常数 级 的 操作 。 这 意 





在 第 1 次 遇 到 v 的 时 候 ， 并 在 调用 完成 时 为 v 分 配 一 个 标签 。 因 此 ， 每 个 顶点 都 
会 分 配 一 个 标签 ， 通 过 在 每 次 分 配 标签 时 把 curLabel 变量 的 值 减 去 1， 这 个 算法 
保证 了 每 个 顶点 "都 有 一 个 来 自 集合 112,…;| 有 的 不 同 标签 fv)。 为 了 理解 为 什 

















么 这 些 标签 组 成 了 一 个 拓扑 顺序 ， 可 以 考虑 一 














ftv)<ftw)。 这 里 存在 两 种 情况 ， 









































条 任意 的 边 (v,w)。 我 们 必须 论证 























取决 于 算法 首先 发 现 的 是 vy 还 是 w。” 





如 果 v 在 w 之 前 被 发 现 ， 那 么 在 w 被 标记 为 已 探索 之 前 ， 会 先 以 顶点 v 为 起 











始 顶 点 调用 DFS-Topo。 由 于 w 可 以 经 v 到 达 (通过 
调用 最 终 会 发 现 w， 并 在 w 处 递归 地 调用 DFS-Topo。 由 于 递归 调用 的 后 入 先 出 性 
































边 (v,w))， 因 此 这 个 DFS-Topo 





质 ， 因 此 从 开始 的 DFS-Topo 调用 是 在 从 v 开始 的 DFS-Topo 调用 之 前 完成 的 。 























由 于 标签 是 按照 降序 分 配 的 ， 





























因此 w 所 分 配 的 f 值 





(D 这 两 种 情况 都 是 有 可 能 的 ， 如 2.5.5 节 所 述 。 


大 于 v， 这 正 是 算法 所 要 求 的 。 


YN 2.5 拓扑 排序 











其 次 ， 假 设 TopoSort 在 v 之 前 先 发 现 w。 由 于 G 是 有 向 无 环 图 ， 因 此 不 存 
在 从 w 返回 到 v 的 路 径 。 否 则 ， 这 条 路 径 加 上 有 向 边 (v,w) 就 构成 了 一 个 有 向 环 
( 见 图 2.21)。 因 此 ， 以 w 为 起 始 顶 点 调用 DFS-Topo 无 法 发 现 v， 当 它 完成 时 y 
仍然 是 未 探索 的 。 















































图 2.21 个 有 向 无 环 图 无 法 同时 包含 一 条 边 (w w) 和 一 条 从 w 返回 到 v 的 路 径 






























































在 w 开始 的 DFS-Topo 调用 同样 是 在 从 v 开始 的 调用 之 前 完成 的 ， 因 此 
fv)Hw) 
2.5.7 ”小 测验 2.3 和 小 测验 2.4 的 答案 

小 测验 2.3 的 答案 


正确 答案 :(e)。 图 2.22 显示 了 这 个 图 的 两 种 不 同 的 拓扑 顺 序 。 我 们 应 该 能 
够 发 现 它们 实际 上 是 相同 的 。 
M2 fw =3 























fls)=1 fj=4 fs)=1 7D = 4 


fw)= 3 fw) = 2 
(a) 一 种 拓扑 顺序 (b) 另 一 种 拓扑 顺序 
图 2.22 小 测验 2.3 的 图 的 两 种 拓扑 顺序 


小 测验 2.4 的 答案 


正确 答案 :(d)。 这 个 算法 总 是 会 终止 : 外 层 循环 只 有 |V| 次 迭代 ， 每 次 迭代 
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要 么 不 执行 任何 操作 ， 要 么 调用 深度 优先 的 搜索 (加 上 少量 的 辅助 操作 )。 深 度 
优先 的 搜索 总 是 会 终止 , 无 论 输 入 图 是 否 是 有 向 无 环 图 (定理 2.4), 因此 TopoSort 
也 是 如 此 。 它 是 不 是 有 可 能 在 终止 时 产生 一 个 拓扑 顺序 昵 ? 不 可 能 ， 它 不 可 能 按 
照 拓 扑 顺 序 对 任何 包含 有 向 环 的 图 的 顶点 进行 排序 (回顾 2.5.2 节 )。 









































*2.6 ”计算 强 连通 分 量 




















接 下 来 , 我 们 将 学 习 深度 优先 的 搜索 的 一 种 更 为 有 趣 的 应 用 : 计算 有 向 图 的 
强 连 通 分 量 。" 这 个 算法 和 无 向 图 版 本 (2.3 节 ) 具有 同样 令 人 惊叹 的 高 速度 ， 昌 
然 比 较 复 杂 。 与 拓扑 排序 相 比 ， 计 算 强 连通 分 量 是 一 个 更 具 挑 战 性 的 问题 ， 仪 月 
一 裔 深度 优先 的 搜索 是 不 够 的 。 
此 ， 让 我 们 使 用 两 遍 深度 优化 的 搜索 ! 



































LU 上 几 



































BH 





2.6.1” 强 连通 分 量 的 定义 





























2.23 中 具有 多 少 个 连通 分 量 ? 














两 





















































图 2.23 有 多 少 个 连通 分 量 



























































我 们 很 容易 认为 这 个 图 具有 1 个 连通 分 量 。 如 果 它 是 个 现实 的 物体 ， 其 中 的 
边 对 应 于 把 顶点 系 在 一 起 的 丝带 , 我 们 就 可 以 把 它 擒 起 来 , 它 会 像 一 个 整体 一 样 





























(D 带 星 号 的 章节 难度 较 大 ， 在 第 一 次 阅读 时 可 以 跳 过 。 
@ 实际 上 , 我 们 可 以 使 用 一 种 技巧 性 较 强 的 方法 ， 只 用 一 遍 深度 优化 的 搜索 就 可 以 计算 有 向 图 的 强 连 通 







































































过 互 




















分 量 。 参 见 “Depth-First Search and Linear Graph Algorithms”(《 深 度 优先 的 搜索 和 线性 的 图 算法 》)， 
作者 Robert E. Tarjan (SIAM Journal on Computing, 1973)。 
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被 擒 起 来 。 但 是 ， 我 们 可 以 回想 一 下 无 向 图 的 连通 分 量 是 怎么 定义 的 (2.3 节 )， 














它 表示 一 个 最 大 区 域 ， 我 们 可 以 在 这 个 区 域 中 从 任意 一 个 顶点 到 达 其 他 任意 一 个 




















顶点 。 在 图 2.23 中 ， 没 有 办 法 “向 左 移动 ” 因此 它 并 不 符合 可 以 从 任意 一 个 项 











点 到 达 其 他 任意 一 个 顶点 的 要 求 。 


有 向 图 的 强 连通 分 量 〈《SCC) 是 指 可 能 出 现 的 最 大 顶点 子 集 SEV， 
中 的 任意 顶点 都 存在 通 向 $ 中 其 他 任意 顶点 的 有 向 路 径 。" 例 如 ， 图 2.24 







































































要 求 $ 
中 的 强 





连通 分 量 包 括 {1,3,5}、{11}、{2,4,7,9} 和 {6,8,10}。 在 每 个 分 量 中 ,可 以 从 任意 一 
个 顶点 到 达 其 他 任意 一 个 顶点 (可 以 进行 验证 )。 每 个 分 量 都 是 满足 这 个 属性 的 




















最 大 子 集 ， 因 为 没有 办 法 从 一 个 SCC“ 向 左 移动 到 ” 另 一 个 SCC。 





SCC#1 SCC#2 CC#4 


PEE co 





ps 


ee 





























图 2.24 一 个 具有 顶点 集 {1,2,3,…,11} 的 图 以 及 它 的 4 个 强 连通 分 量 




















图 2.24 中 4 个 SCC 之 间 的 关系 就 像 图 2.23 中 的 4 个 顶点 之 间 的 关系 
更 普遍 的 说 法 ， 如 果 我 们 将 每 个 SCC 作为 一 个 整体 来 看 ， 那 么 每 个 有 向 
以 看 成 是 由 它 的 SCC 所 构建 的 有 向 无 环 图 。 



























































。 按 照 
图 都 可 








命题 2.2 (SCC 图 元 是 有 向 无 环 图 ) 设 G=( 玉 如 是 个 有 向 图 。 它 的 
元 三 (K, 了 被 定义 为 : G 的 每 个 SCC 都 用 一 个 元 顶点 xe 了 对 表示 。F 中 的 元 

















对 应 图 
边 (x,y) 





表示 G 中 存在 一 条 边 是 从 与 x 对 应 的 SCC 中 的 一 个 顶点 到 与 y 对 应 的 SCC 中 的 



































G 与 无 向 图 的 连通 分 量 一 样 (第 32 页 脚注 1), 有 向 图 G 的 强 连 通 分 量 正好 是 等 价 关 系 ~~G 的 
















































































到 并 











的 情况 相同 (第 32 页 脚注 1)。 

















个 等 价 


其 中 一 CGw 当 且 仅 当 G 中 存在 从 v 到 w 和 从 w 到 v 的 有 向 路 径 。 一 G 是 等 价 关系 的 证 明 与 无 向 
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一 个 顶点 。 这 样 ， 瑟 就 是 一 个 有 向 无 环 图 。 











例如 ， 图 2.23 所 示 的 有 向 无 环 图 是 图 2.24 所 示 的 有 



































可 图 对 应 的 图 元 。 








命题 2.2 的 证 明 : 如 果 图 元 矿 具 有 一 个 包含 三 2 个 顶点 的 有 向 环 ，G 中 对 











应 的 不 同 SCC 环 51,5;,…,Sk 肯定 能 够 合并 为 一 个 单独 的 
































以 自由 地 在 $ 的 每 个 分 量 之 间 移 动 ， 环 形 结构 允许 任何 一 


















































了 它 的 精细 粒度 的 结构 。 

















小 测验 2.5 


大 数量 的 连通 分 量 分 别 是 多 少 ? 
(a)1 和 1 
(b)1 和 n 
(c)1 和 m 
(d)n 和 n 





(正确 答案 和 详细 解释 参见 2.6.7 节 。 ) 


考虑 一 个 具有 n 个 顶点 和 m 条 边 的 有 向 无 环 图 ， 它 可 以 具有 的 最 小 数量 和 最 











SCC， 这 是 因为 我 们 可 
对 5; 之 间 的 移动 。 





命题 2.2 提示 了 每 个 有 向 图 可 以 根据 两 个 粒度 层次 进行 观察 。 若 将 其 缩小 ， 
我 们 只 关注 它 的 SCC 之 间 的 〈 无 环 ) 关系 。 若 将 其 放大 ， 


每 个 特定 的 SCC 显示 








2.6.2 ”为 什么 要 使 用 深度 优先 的 搜索 




















为 了 理解 为 什么 图 的 搜索 有 助 于 计算 强 连通 分 量 , 我 们 先 回 | 2.24。 假设 
我 们 从 顶点 6 开始 调用 了 深度 优先 的 搜索 (或 宽度 优先 的 搜索 )。 这 个 算法 将 找 
到 可 以 从 6 到 达 的 每 个 顶点 (不 会 发 现 更 多 的 顶点 )， ee 这 正好 




































































是 其 中 一 个 强 连 通 分 量 。 比 较 糟 糕 的 情况 是 ， 我 们 从 顶点 1 启动 一 次 图 的 搜索 ， 

















此 时 所 有 的 顶点 (不 仪 仅 是 {1,3,5}) 都 会 被 发 现 ， 我 们 无 法 根据 这 个 结果 来 确定 




















连通 分 量 。 



































结论 是 图 的 搜索 可 以 发 现 强 连通 分 量 , 只 要 我 们 从 正确 的 位 置 出 发 。 从 理论 


























上 说 ， 我 们 首先 想 要 发 现 一 个 “ 权 SCC”， 意 思 是 一 个 没有 外 向 边 的 SCC (如 





而 
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2.24 中 的 SCC 覆 )， 然 后 进行 反 向 操作 。 按 照 命题 2.2 的 图 元 定义 ， 
们 将 以 相反 的 拓扑 顺序 发 现 各 个 SCC， 





























看 上 去 我 





依次 逐个 剥离 每 个 权 SCC。 我 们 在 2.5 











节 中 已 经 看 到 了 可 以 很 方便 地 使 用 深度 优先 的 搜索 来 实现 拓扑 顺序 ， 这 也 是 我 们 
的 算法 将 使 用 两 遍 深 度 优 先 的 搜索 的 原因 。 第 1 遍 搜索 计算 一 个 奇妙 





这 种 两 遍 搜索 的 策略 称 为 Kosaraju 算法 。" 下面 直接 给 出 Kosaraju 


1. 





理 顺 序 ， 





A 


第 2 遍 搜 索 根 据 















































这 个 顺序 逐个 发 现 SCC。 


的 顶点 处 



































Kosaraju ( 高 层 描述 ) 


设 G” 表示 每 条 边 都 变换 了 方向 的 输入 图 G。 


2. 从 G” 的 每 个 顶点 调用 DFS， 按 任意 顺序 处 理 ， 为 每 个 顶点 v 计 算 一 个 位 
置 值 fv)。 
3. 从 G 的 每 个 顶点 调用 DFS， 从 最 高 位 置 到 最 低位 置 先 后 进行 处 理 ， 计 算 每 
个 顶点 分 别 属于 哪个 强 连 通 分 量 。 


法 描述 。 




















对 于 Kosaraju 算法 的 第 2 个 和 第 3 个 步骤 ， 我 们 应 该 会 觉得 它们 在 一 定 程 
度 上 符合 自己 的 想象 。 第 2 个 步骤 所 完成 的 任务 与 2.5 节 的 TopoSort 











其 目 





我 们 只 考虑 DAG 中 的 TopoSort， 而 现在 所 面 对 的 是 通用 的 有 向 图 。) 
又 与 2.3 节 的 无 向 图 









































法 相似 ， 


的 是 在 第 3 个 步骤 中 按照 与 拓扑 顺序 相反 的 顺序 处 理 输入 图 的 SCC。( 注 意 : 
































第 3 个 步 











的 UCC 算法 有 点 相似 。( 注 意 : 在 无 向 图 中 ， 顶 点 的 处 理 顺 




























































































































































































序 无 关 紧 要 。 但 是 ， 我 们 知道 有 向 图 的 顶点 处 理 顺 序 是 会 产生 区 别 的 .) 但 是 ， 
第 1 个 步骤 是 怎么 回 事 ? 为 什么 第 1 遍 搜索 要 根据 反 转 的 输入 图 进行 呢 ? 
2.6.3 为 什么 要 使 用 反 转 的 图 

我 们 首先 探索 一 种 更 为 自然 的 思路 ， 就 在 原 输入 图 G=(V,E) 上 调用 2.5 节 的 
TopoSort 算法 。 记 住 ， 这 个 算法 具有 一 个 外 层 for 循环 ， 以 任意 顺序 对 G 的 顶点 
进行 一 遍 处 理 ， 在 遇 到 一 个 尚未 探索 的 顶点 时 启动 深度 优先 的 搜索 ， 并 在 从 v 
四 这 个 算法 首先 出 现在 S. Rao Kosaraju 于 1978 年 的 一 篇 未 发 表 论文 中 。Micha Sharir 也 发 现 了 这 个 算法 ， 


L 


























及 它 在 


E 数 据 流 分 书 














Pp 的 应 





ils 




















并 发 表 于 论文 “A Strong-Connectivity Algorithm and Its Applications in Data Flow Analysis”(《 强 连通 性 





») (Computers & Mathematics with Applications, 1981) 


有 时 又 称 Kosaraju-Sharir 算法 。 


; 卫 村 























Ph。 这 个 算法 
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启动 的 深度 优先 的 搜索 完成 时 为 顶点 v 分 配 一 个 位 置 值 fv)。 这 些 位 置 是 按 降 序 
分 配 的 ， 从 |Y | 一直 递 减 为 1。 


名 
































TopoSort 























于 有 向 无 环 图 














个 权 SCC 呢 ? 


一 个 例子 


很 遗憾 ， 








第 2 遍 深度 优先 的 搜索 快速 确认 
的 一 个 模 SCC 中 的 一 个 不 存在 外 向 边 的 顶点 。 我 们 有 
G， 顶 点 位 置 构 成 了 一 个 拓扑 顺序 (定型 
的 顶点 肯定 是 G 的 一 个 没有 外 向 边 的 槽 项 点.( 任 何 这 档 
反 向 访问 。) 也 许 对 于 一 个 通用 的 有 向 图 G， 最 后 一 个 位 置 的 项 点 总 是 属 ] 


不 是 。 例 如 ，1 
按照 升序 处 理 顶 点 ， 首 先 考虑 顶点 1〈 在 j 


法 最 初 是 为 有 向 无 环 输入 图 设计 的 ， 但 它 也 可 以 
何 有 向 图 的 顶点 位 置 〈 小 测验 2.4)。 我 们 希望 这 些 顶 点 位 置 可 以 帮助 我 















































个 良好 的 起 始 搜索 项 点， 理想 | 







































































j 于 计算 任 


门 为 


青 况 下 是 G 
由 对 此 保持 乐观 : 对 
EE 2.6)， 最 后 一 个 位 置 
的 边 都 将 按 这 个 顺序 















































腿 设 我 们 在 图 2.24 上 运行 TopoSort 算法 。 假 设 我 们 
这 种 情况 下 ， 所 有 的 顶点 都 会 在 外 层 循 


环 的 第 1 损 迭代 中 被 发 现 )。 我 们 进一步 假设 深度 优先 的 搜索 在 访问 边 (3,11) 之 前 
访问 边 (3,5)， 在 访问 边 (5,9) 之 前 访问 边 (5,7)， 在 访问 边 (9,2) 之 前 访问 边 (9,4)， 在 
访问 边 (9,8) 之 前 访问 边 (9,2)。 在 这 种 情况 下 ， 我 们 可 以 验证 顶点 位 置 如 图 





所 示 。 


f6)=10 




















图 2.25 ”TopoSort 算法 验证 的 顶点 位 置 














与 我 们 的 愿望 相反 ， 最 后 一 个 位 置 的 顶点 (顶点 4) 














并 不 属于 槽 SCC。 有 


2.25 














NN *2.6 计算 强 连通 分 量 55 














个 好 消息 是 第 1 个 位 置 的 项 点 (顶点 1) 属于 一 个 源 SCC 〈 即 没有 入 射 边 的 SCC )。 


如 果 改 用 降序 处 理 顶点 会 怎么 样 呢 ? 如 果 深 度 优 先 的 搜索 在 访问 边 (11.8) 之 
前 访问 边 (11,6), 在 访问 边 (9,4) 之 前 访问 边 (9,2), 那么 顶点 位 置 如 图 2.26 所 示 (可 
以 进行 验证 )。 
























































图 2.26 ”降序 处 理 的 顶点 位 置 









































这 一 次 ， 最 后 一 个 位 置 的 顶点 位 于 槽 SCC 中 ， 但 我 们 知道 这 并 不 
况 。 更 为 有 趣 的 是 ， 第 1 个 位 置 的 顶点 仍然 属于 源 SCC， 虽 然 这 次 是 这 个 SCC 
中 的 另 一 个 顶点 。 这 是 不 是 普遍 情况 呢 ? 


第 1 个 顶点 位 于 源 SCC 中 


事实 上 ， 存 在 一 个 更 进一步 的 结论 : 对 于 图 G 的 每 个 SCC， 如 果 用 它 的 一 
个 最 小 顶点 位 置 作为 它 的 标签 ， 这 些 标签 就 构成 了 命题 2.2 所 定义 的 SCC 图 元 
的 一 个 拓扑 顺序 。 


定理 2.7 (SCC 的 拓扑 顺序 )” 设 G 是 有 向 图 ， 其 顶点 顺序 任意 。 对 于 它 的 
每 个 顶点 veV，ftv) 表 示 TopoSort 算法 所 计算 的 v 的 位 置 。 设 S1 和 5, 表示 G 的 
两 个 SCC， 并 假设 G 具有 一 条 边 (v,w) 满 足 veS1 且 weS;， 则 





计 
跨 
Ee 
i 






































































































































a f (< nin f(y) 









































证 明 : 这 个 定理 的 证 明 与 TopoSort 算法 的 证 明 ( 定 理 2.6， 现 在 有 必要 重新 











56 





第 2 章 图 的 搜索 及 其 应 用 上 






































复习 ) 相似 。 设 5S1 和 5, 表示 G 的 两 个 SCC, 并 考虑 两 种 情况 。 “首先 , 假设 TopoSort 
算法 在 5, 的 任何 顶点 之 前 发 现 了 Si 的 一 个 顶点 s， 并 启动 了 深度 优先 的 搜索 。 
由 于 存在 一 条 从 51 中 的 某 个 顶点 v 到 8$ 中 的 某 个 顶点 w 的 一 条 边 ， 并 且 Si 和 
5; 都 是 SCC， 因 此 5, 中 的 每 个 顶点 都 是 可 以 从 s 到 达 的 。 为 了 到 达 某 个 顶点 yesS， 
只 需要 把 51 中 的 一 条 路 径 s~3v、 边 (vw) 和 5, 中 的 一 条 路 径 w~2y 连接 在 一 起 。 
由 于 递归 调用 后 进 先 出 的 性 质 ， 在 顶点 s 启动 的 深度 优先 的 搜索 在 $ 的 所 有 项 
点 完成 探索 之 前 并 不 会 结束 。 由 于 顶点 位 置 是 按 降序 分 配 的 , 因此 * 的 位 置 将 小 
于 8 的 每 个 顶点 。 


对 于 第 二 种 情况 ， 假 设 TopoSort 算法 在 发 现 51 的 任何 顶点 之 前 发 现 了 顶点 
seS;。 由 于 G 的 图 元 是 有 向 无 环 图 (命题 2.2)， 因 此 不 存在 从 s 到 51 的 任何 顶 
点 的 路 径 〈 如 果 存 在 这 样 的 路 径 ， 将 导致 % 和 5, 被 合并 为 一 个 SCC)。 因 此 ， 
从 顶点 s 启动 的 深度 优先 的 搜索 在 发 现 了 5; 的 所 有 顶点 (可 能 还 要 处 理 一 些 其 他 
事务 ) 之 后 才 会 完成 ， 但 其 间 不 会 发 现 51 的 任何 项 点 。 在 这 种 情况 下 ，51 的 每 
个 顶点 所 分 配 的 位 置 都 小 于 5, 的 每 个 顶点 。 

定理 2.7 说 明了 第 1 个 位 置 的 顶点 总 是 位 于 一 个 源 SCC 中 ， 这 正 是 我 们 所 
希望 的 。 考 虑 fv)=1 的 一 个 顶点 ww 它 存在 于 8 这 个 SCC 中 。 如 果 8 不 是 源 SCC ， 
有 一 条 来 自 另 一 个 不 同 的 SCC 一 一 8 的 入 射 边 , 那么 根据 定理 2.7, 5 中 的 最 小 
顶点 将 小 于 0， 这 是 不 可 能 的 。 

总 之 ， 经 过 一 遍 深 度 优先 的 搜索 之 后 ， 我 们 立即 可 以 确定 一 个 位 于 某 个 源 
SCC 中 的 顶点 。 唯 一 的 问题 是 什么 ?我 们 实际 上 希望 寻找 的 是 某 个 模 SCC 中 的 
一 个 顶点 。 怎 么 解决 这 个 问题 呢 ? 只 要 在 一 开始 把 图 反 转 即 可 。 


对 图 进行 反 转 

































































































































































































































































小 测验 2.6 


设 G 是 有 向 图 ，G 是 G 的 一 个 副本 ,但 其 中 每 条 边 的 方向 都 进行 了 反 转 。G 
的 SCC 和 G™ 的 SCC 具有 什么 关系 ? (选择 所 有 正确 的 答案 。) 





G 两 种 情况 都 是 可 能 的 ， 就 像 在 前 一 个 例子 所 看 到 的 那样 。 











 *2.6 计算 强 连通 分 量 























(a) 一 般 而 言 ， 它 们 是 不 相关 的 。 

(b) G 的 每 个 SCC 也 是 GW 的 SCC， 反 之 亦 然 。 
(c) G 的 每 个 源 SCC 也 是 G™ 的 一 个 源 SCC。 
(d) G 的 每 个 槽 SCC 成 了 G™ 的 一 个 源 SCC。 


(正确 答案 和 详细 解释 参见 2.6.7 节 。) 















































E 论 2.1 是 根据 小 测验 2.6 的 答案 对 定理 2.7 进行 的 改写 ， 使 之 适用 于 反 转 图 。 


推论 2.1 设 G 是 个 有 向 图 顶点 的 顺序 是 任意 的 。 对 于 每 个 顶点 veV, fv) 
表示 TopoSort 算法 在 反 转 图 GW 上 计算 的 v 的 位 置 。 假 设 9 和 5, 表示 G 的 两 个 
SCC， 并 假设 G 具有 一 条 边 (v,w)， 满 足 veSi 且 weS3， 则 


min f(x)<min f(y») (2.1) 






































































































































具体 地 说 ， 第 1 个 位 置 的 顶点 位 于 G 的 一 个 槽 SCC 中 ， 它 是 第 2 遍 深 度 优 
先 的 搜索 的 理想 起 始 顶点 。 


2.6.4 Kosaraju 的 伪 码 


现在 一 切 都 已 经 准备 妥当 : 我 们 在 反 转 图 上 运行 一 遍 深 度 优先 的 搜索 (通过 
TopoSort)， 计 算出 了 顶点 的 神奇 访问 顺序 ， 然 后 运行 第 2 裔 深度 优先 的 搜索 ( 通 
过 DFS-Topo 子 程序 ) 以 相反 的 拓扑 顺序 发 现 SCC， 就 像 剥 洋葱 一 样 将 它们 逐个 
剥 除 。 






















































































Kosaraju 
输入 : 邻接 列表 表示 形式 的 有 向 图 G=(V,E)， 具 有 态 {1,2,3,…,n}。 
完成 状态 : 对 于 每 对 vy,weV， 当 且 仅 当 v 和 ww 位 于 G 的 同一 个 SCC 中 时 ， 满 
足 scc(V) = scc(w)。 





Gre" := 所 有 的 边 反 转 了 方向 的 G 

把 G'** 的 所 有 顶点 标记 为 未 探索 

// 第 1 遍 深 度 优 化 的 搜索 

// (计算 所 有 的 f(v) ， 即 神奇 的 访问 顺序 ) 
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第 2 章 图 的 搜索 及 其 应 用 上 

TopoSort (G'®) 

// 第 2 遍 深度 优化 的 搜索 

// (按照 相反 的 拓扑 顺序 寻找 SCC ) 

把 G 的 所 有 顶点 标记 为 未 探索 

numSCC := 0 // 全 局 变量 

for 每 个 veVw 按 f(v) 的 升序 do 

if v 为 未 探索 then 

DuUmSCC := numSCC + 1 
// 分 配 scc 值 (细节 如 下 ) 
DFS=S00 (0G) 

以 下 是 3 个 实现 细节 。? 

(1) 实现 这 个 算法 比较 简单 的 方法 是 从 字面 上 创建 输入 图 的 一 个 副本 ， 将 所 有 
的 边 反 转 方向 ， 并 把 它 输入 到 TopoSort 子 程序 中 。 一 种 更 为 聪明 的 实现 是 在 原始 输 
入 图 上 按照 相反 方向 运行 TopoSort 算法 , 把 2.5 节 的 DFS-Topo 子 程序 中 的 “s 的 外 
向 邻接 列表 中 的 每 条 边 (s,v)” 蔡 换 为 “s 的 入 射 邻 接 列 表 中 的 每 条 边 (v,s)”。 

(2) 为 了 得 到 正确 的 结果 ， 第 1 遍 深度 优先 的 搜索 应 该 导出 一 个 数组 ， 其 中 
包含 的 顶点 (或 指向 顶点 的 指针 ) 按照 它们 的 位 置 排列 ， 这 样 第 2 遍 深 度 优先 的 
搜索 用 一 遍 简单 的 数组 扫描 即 可 完成 对 它们 的 处 理 。 这 个 操作 只 在 TopoSort 子 
程序 上 增加 了 常数 级 的 开销 (可 以 进行 验证 )。 





(3) DFS-SCC 子 程 序 与 DFS 相同 ， 只 是 增加 了 额外 的 1 行 代码 记录 一 些 辅 


伴 自 
助 信 息 JU oO 














输入 : 邻接 列表 表示 形式 的 有 向 图 G， 
完成 状态 : 每 个 可 以 从 8 到 达 的 顶点 被 标记 为 已 探索 ， 并 且 分 配 了 一 个 SCC 值 。 











DFS-SCC 


顶点 seV。 









































把 s 标记 为 已 探索 
scc(s) := numSCC // 上 面 的 全 局 变量 
for 每 条 边 (s, 下 在 s 的 外 向 邻接 列表 中 do 
if v 为 未 探索 then 
DFS-SCC (GT 了) 
QD 为 了 真正 领会 它 的 妙 处 ， 最 好 自己 实现 这 个 算法 (参见 问题 2.10)。 











 *2.6 计算 强 连通 分 量 


2:6.:9， 二 个 例 千 




















根据 前 面 的 例子 对 算法 进行 验证 ,确认 所 得 到 的 正 是 我 们 所 需要 的 ， 即 第 














裔 深度 优先 的 搜索 按照 相反 的 拓扑 顺序 发 现 SCC。 假 设 图 





























人 
2.24 中 的 图 是 输入 图 











的 反 转 图 G™W。 我 们 在 2.6.3 节 介 绍 了 两 种 计算 方法 ，TopoSort 算法 可 以 根据 这 

















两 种 方法 向 这 个 图 的 项 点 分 配 f 值 ,我 们 将 使 用 第 一 种 方法 。 
反 转 的 ) 输入 图 ， 它 的 顶点 用 各 自 的 顶点 位 置 进 行 了 标注 。 





















































A1)=1 





图 2.27 TopoSort 算法 输入 图 (未 反 转 ) 























图 2.27 所 示 的 是 (未 





第 2 遍 搜索 按照 顶点 位 置 的 升序 对 顶点 进行 迭代 。 因 此 ，DFS-SCC 的 第 1 
次 调用 是 在 第 1 个 位 置 的 顶点 (恰好 是 顶点 1) 处 开始 的 。 它 发 现 了 顶点 1、3 















































和 5， 并 把 它们 标注 为 第 1 个 SCC 的 顶点 。 这 个 算法 继续 
的 顶点 (顶点 3)， 它 已 经 在 第 1 次 DFS-SCC 调用 时 被 探索 ， 因 此 将 被 跳 过 。 第 









































考虑 第 2 个 顶点 位 置 





3 个 顶点 位 置 的 顶点 《顶点 11) 还 没有 被 发 现 ， 因 此 它 是 DFS-SCC 的 下 一 个 起 
始 顶 点 。 这 个 顶点 唯一 的 外 向 边 到 达 一 个 已 经 被 探索 的 顶点 (顶点 3)， 因 此 11 





















































探索 )， 并 从 顶点 7 也 就 是 第 





























是 第 2 个 SCC 的 唯一 成 员 。 这 个 算法 跳 过 第 4 个 位 置 的 顶点 (顶点 5， 已 经 被 
5 个 位 置 的 顶点 再 次 启动 DFS-SCC。 


这 次 搜索 发 现 顶点 2、4、7 和 9【〔 另 一 条 外 向 边 到 达 已 经 探索 过 的 顶点 5)， 





并 确认 它们 为 第 3 个 SCC。 这 个 算法 跳 过 顶点 9 和 顶点 2， 











并 最 终 在 顶点 10 处 





























调用 最 后 一 次 DFS-SCC， 发 现 最 后 一 个 SCC (由 顶点 6、8 和 10 组 成 )。 
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2.6.6 ”正确 性 和 运行 时 间 
Kosaraju 算法 是 正确 的 ， 对 于 每 个 有 向 
不 仅仅 是 针对 前 面 这 个 例子 。 
定理 2.8 〈Kosaraju 的 属性 ) “对 于 每 个 采用 邻接 列表 表示 形式 的 有 向 图 
G=(V, £): 


(a) 当 Kosaraju 算法 完成 ,对 于 每 一 对 顶点 ww， 当 且 仅 当 v 和 wm 属于 G 的 
同一 个 强 连通 分 量 时 ，scc(v)=scc(w); 





























而 


都 可 以 实现 令 人 惊叹 的 高 速度 ， 而 





















































(b) Kosaraju 算法 的 运行 时 间 是 O(mtn)， 其 中 m=|&|，n=|V|。 

我 们 已 经 讨论 了 这 个 定理 的 证 明 所 需要 的 全 部 组 成 部 分 。 

这 个 算法 可 以 用 O(m+n) 时 间 实 现 ， 一 般 情况 下 还 要 加 上 一 个 较 小 的 隐藏 常 
数 因 子 。 两 遍 深 度 优 先 的 搜索 对 每 个 顶点 或 每 条 边 都 需要 进行 常数 级 的 操作 ， 
额外 的 辅助 记录 工作 增加 的 运行 时 间 也 反映 在 常数 因子 上 。 

这 个 算法 还 正确 地 计算 了 所 有 的 SCC: 每 次 当 它 启动 一 个 新 的 DFS-SCC 调 
用 时 ， 它 正好 只 发 现 1 个 新 的 SCC， 是 一 个 与 图 的 尚未 探索 的 顶点 相关 的 模 SCC 
(也 就 是 说 ， 所 有 的 外 向 边 都 指向 已 经 探索 过 的 顶点 的 SCC)。?” 

























































































































































































2.6.7 小 测验 2.5 和 小 测验 2.6 的 答案 
小 测验 2.5 的 答案 


正确 答案 :(d)。 在 有 向 无 环 图 G=(V,B) 中 ， 每 个 顶点 位 于 各 自 的 强 连通 分 量 
中 (总 共 是 n=| 有 个 SCC)。 为 了 理解 这 一 点 ， 可 以 固定 G 的 一 个 拓扑 顺序 (2.5.1 
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QD 如 果 要 更 正式 地 进行 证 明 ， 那 么 可 以 考虑 在 一 个 属于 SCC S 的 起 始 顶 点 v 处 调用 DFS-SCC 子 程序 。 
推论 2.1 提示 了 从 vv 出 发 的 有 向 路 径 能 够 访问 到 的 SCC 至 少 包 含 了 1 个 早 于 vw 的 位 置 的 顶点 。 由 了 
Kosaraju 算法 按照 位 置 的 顺序 处 理 顶 点 ， 因 此 SCC 中 从 vw 可 以 到 达 的 所 有 顶点 都 已 经 被 算法 所 探索 。 

( 记 住 ， 这 个 算法 一 旦 找到 一 个 SCC 的 一 个 顶点 ， 就 会 发 现 这 个 SCC 的 所 有 顶点 。〉 因 此 ， 从 5S 出 

发 的 边 只 能 到 达 已 经 被 探索 的 顶点 。 对 DFS-SCC 的 这 个 调用 只 能 发 现 S 的 顶点 , 无 法 发 现 其 他 顶点 ， 

姑 为 不 存在 路 径 穿 越 到 其 他 SCC。 由 于 DFS-SCC 的 每 次 调用 都 发 现 一 个 单独 的 SCC， 并且 每 个 顶点 
最 终 都 会 被 考虑 到 ， 因 此 Kosaraju 算法 能 够 正确 地 找到 所 有 的 SCC。 
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节 )， 每 个 顶点 ve 分 配 一 个 不 同 的 标签 ftv)( 根 据 定理 2.5， 这 是 必然 存在 的 )。 
G 的 边 只 能 从 较 小 的 f 值 指向 较 大 的 f 值 ， 因 此 对 于 每 一 对 顶点 vweV， 要 么 G 
中 不 存在 v~>w 路 径 〈 如 果 f(y)>ftw))， 要 么 不 存在 wy 路径 〈 如 果 ftw)>f0y))。 
这 就 排除 了 这 两 个 顶点 位 于 同一 个 SCC 中 的 情况 。 


小 测验 2.6 的 答案 


正确 答案 :(b)(d)。 当 且 仪 当 同 时 存在 从 v 到 w 的 有 向 路 径 Pi 和 从 到， 
的 有 向 路 径 P, 时 ， 有 向 图 的 两 个 顶点 v 和 w 才 属 于 同一 个 强 连通 分 量 。 对 于 G 
中 的 顶点 v 和 w， 当 且 仅 当 这 个 属性 在 G™ 中 成 立时 , 在 G 中 也 是 成 立 的 。 对 于 
前 者 ， 使 用 Pi 的 反 转 版 本 从 w 到 达 v 以 及 忆 的 反 转 版 本 从 v 到 达 w， 见 图 2.28 
(b)。 我 们 可 以 得 出 结论 ，G 的 SCC 与 G™ 是 相同 的 。G 的 源 SCC (没有 入 射 边 ) 
成 为 G™ 的 模 SCC( 没 有 外 向 边 )，G 的 槽 SCC 成 为 G™ 的 源 SCC。 按 照 更 通 
用 的 说 法 , 当 且 仅 当 G 中 存在 一 条 从 SCC 5; 中 的 一 个 顶点 到 SCC 51 的 一 个 顶 
点 的 边 时 , G 中 才 存 在 一 条 对 应 的 从 51 中 的 一 个 顶点 到 5 中 的 一 个 顶点 的 边 。 









































































































































SCC SCC SCC 





(a) 原始 图 (b) 反 转 图 
图 2.28 ”一 个 图 和 它 的 反 转 图 具有 相同 的 连通 分 目 
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2.7 ”Web 的 结构 








现在 ， 我们 已 经 了解 了 图 的 一 些 零 代价 的 基本 算法 。 如 果 我 们 需要 处 理 图 数 


























QD 换 句 话说 ，G™ 的 图 元 (命题 2.2) 很 简单 ， 就 是 每 条 边 的 方向 都 进行 了 反 转 的 G 的 图 元 。 
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据 , 就 可 以 应 用 这 些 上 共有 令 人 惊叹 的 高 速度 的 算法 , 即使 我 们 并 不 明确 以 后 会 不 
会 用 到 这 些 算法 所 产生 的 结果 。 例如 ,对 于 一 个 有 向 图 ， 为 什么 不 计算 它 的 强 连 
通 分 量 以 便 对 它 的 形状 有 所 了 解 呢 ? 接 下 来 ， 我 们 将 在 一 个 极其 庞大 并 且 非 常 有 
趣 的 有 向 图 中 探索 这 个 思路 ， 这 个 图 就 是 Web 图 。 







































































2./.1 Web 














在 Web 图 中 ， 顶 点 对 应 于 Web 页 面 ， 边 对 应 于 超 链接 。 这 种 图 是 有 向 的 ， 
边 是 从 包含 链接 的 页 面 指向 该 链接 的 登录 页 面 。 例 如 ， 我 的 主页 对 应 于 这 种 图 
的 一 个 项 点， 它 的 外 向 边 对 应 于 指向 我 的 图 书 、 课 程 等 页 面 的 链接 。 另 外 ， 也 存 
在 一 些 入 射 边 对 应 于 指向 我 的 主页 的 链接 ， 它 们 可 能 来 自 于 我 的 合作 作者 或 在 
线 课 程 的 指导 教师 列表 〈 见 图 2.29 )。 




































































Aquarius 
Records 
唱片 行 
R.I.P 






2.29 Web 图 的 一 个 微小 片段 


虽然 Web 的 起 源 可 以 回溯 到 大 约 1990 年 ， 但 Web 真正 得 到 大 规模 应 用 却 
是 在 5 年 之 后 。 大 约 在 2000 年 (在 Internet 纪年 中 尚 属 石器 时 代 )，Web 图 已 经 
变 得 极为 庞大 , 超出 了 人 们 的 想象 , 研究 人 员 对 它 的 结构 产生 了 强烈 的 兴趣 并 开 
始 致力 于 这 方面 的 研究 。" 本 节 描 述 了 那个 时 代 的 一 项 著名 研究 ， 它 通过 计算 








































































































G@ 构建 这 种 网 络 需要 沿 着 超 链接 对 (一 大 片 的 ) Web 反复 进行 仆 行 ， 就 其 本 身 而 言 ， 就 是 一 个 伟大 的 
工程 奇迹 。 

















Web 














2.7.2 蝴蝶结 








图 的 强 连通 分 量 对 它 
个 顶点 和 150 亿 条 边 ， 因 此 绝对 需 


的 结构 i 


行 了 















































YN 2.7 Web 的 结构 





























了 探索 , ?由 于 当时 Web 已 经 拥有 超过 2 亿 


要 一 种 线性 时 间 的 算法 









































































































































Broder 等 人 进行 的 这 项 研究 计算 Web 图 的 强 连 通 分 量 ， 并 用 图 2.30 所 描绘 
的 “蝴蝶 结 ” 解 释 了 他 们 的 发 现 。 蝴 蝶 结 的 结 是 这 个 图 的 最 大 强 连 通 分 量 ， 大 约 
包含 了 28% 的 顶点 。 标 题 “ 巨 型 ”用 来 形容 这 个 SCC 是 非常 合适 的 ， 因 为 次 小 
的 那个 SCC 要 比 它 小 两 个 数量 级 。® 这 个 巨型 SCC 可 以 看 成 Web 的 核心 ， 每 个 
页 面 可 以 通过 一 系列 的 超 链接 到 达 其 他 页 面 。 

图 2.30 把 Web 图 看 成 是 一 个 “蝴蝶 结 ”。 大约 有 相同 数量 的 Web 页 面 分 别 
遇 于 巨型 SCC、 入 口 、 出 口 以 及 图 的 剩余 部 分 
较 小 的 SCC 可 以 放 在 几 个 分 类 中 。 从 某 个 分 类 可 以 到 达 那 个 巨型 SCC (但 














反 过 来 不 行 )， 


Q@ 一 篇 名 为 “Graph Structure in the Web”(Web 的 


这 是 蝴蝶 结 的 左 半 i 








多 











结构 ) 的 通 














部 分 (“入口”)。 例 如 ， 一 个 


俗 易 懂 











新 创建 的 Web 页 





的 论文 描述 了 这 项 研究 。 这 篇 论 





文 的 作者 包括 Andrei Broder、 Ravi Kumar、 Farzin Maghoul、 Prabhakar Raghavan、Sridhar Rajagopalan、 
Raymie Stata、Andrew Tomkins 和 Janet Wiener (Computer Networks，2000)。 那 个 时 候 ，Google 才刚 刚 
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出 现 ， 这 项 研究 使 / 











搜索 引擎 Alta Vista 〈 现 在 
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这 项 研究 在 年 代 上 早 于 





现 召 


E 的 





巨 量 数据 处 理 框 











怖 的 输入 规模 。 





注意 ， 





得 有 点 奇怪 ， 很 难 想象 它们 之 间 不 存在 


把 两 个 SCC 合并 为 1 个 SCC 的 唯一 








E 架 








的 边 。 





， 如 MapReduce 和 Hadoop， 这 在 当 


需求 就 是 每 个 方向 都 有 一 条 边 。 存 在 
一 条 至 少 是 单 向 
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E 已 经 消亡 很 入 了 ) 进行 Web 疏 行 所 得 到 的 数 





居 。 














两 个 








已 经 是 极其 ? 


HL 
CN 


巨大 的 SCC 显 
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草 





第 2 








有 如果 可 以 链接 到 


妨 外 ， 
反 过 来 不 行 。 这 









































从 入 口 到 达 出 














巨型 SCC 中 的 某 些 
还 有 一 个 对 称 的 “出 


图 的 搜索 及 其 应 用 上 

















SR 


页 面 ， 它 就 可 以 出 现在 这 个 




















”部 分 ， 可 以 从 巨型 








SCC 到 jj 


部 分 。 


达 这 个 部 分 ， 但 








' 类 型 的 SCC 的 一 个 例子 是 公司 的 网 站 ， 公 司 的 策略 决定 了 
的 所 有 超 链接 都 位 于 这 个 站 点 中 。 另 外 ， 还 有 一 种 奇怪 的 东西 称 








， 绕 过 了 巨型 SCC。 还 有 “ 




















到 达 出 口 (但 








并 不 属于 巨型 SCC)。 出 


上 外， 




















到 达 Web 的 其 


2.7.3 主要 友 现 


这 项 研究 最 令 人 
的 部 分 具有 大 致 相同 
研究 之 前 ， 很 多 人 认为 


三 | 
候 























要 不 到 














吃惊 的 发 现 是 巨 
的 大 小 
巨型 SCC 要 远 远 大 了 
巨型 SCC 内 部 的 连接 极为 丰富 
20 个 超 链 接 就 
他 部 分 的 连接 相对 较 少 ， 往 往 和 

















三 天 





(每 个 都 包 





联 曝 ”， 


还 有 一 些 Web 页 再 
他 所 有 部 分 或 者 从 后 者 到 达 。 


已 可 以 从 入 


型 SCC、 入 口 部 分 、 








为 [3 通道 4 
到 达 或 者 可 以 
的 “孤岛 ” 无 法 
























































出 口 部 分 以 及 其 他 奇 





含 了 大 约 24% 一 28% 的 顶点 )。 在 这 项 











可 以 从 任意 一 个 页 面 到 达 








六 Web 的 28%。 


第 二 个 有 趣 的 发 现 








， 它 大 约 有 5 600 万 个 Web 页 面 , 但 我 们 大 约 











其 他 任意 


一 个 页 面 。*Web 图 

















我 们 可 能 会 怀疑 ，1 














于 这 项 研究 所 使 









































快照 ， 这 些 发 现 是 不 是 已 
经 发 生 了 很 大 的 变化 。 
Broder 等 
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过 时 了 。 随 着 























QD 无 所 不 在 的 短路 径 又 称 “ 小 











世界 











属性 ” 它 与 流 和 





的 。 


于 词 


Web 








长 的 路 径 才 能 从 一 个 顶点 到 达 另 一 个 


的 Web 图 对 于 现在 而 言 已 经 是 史前 
图 的 增长 和 演变 ， 确 切 的 数量 已 
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图 和 上 








他 信息 网 络 还 有 很 多 非常 好 的 看 


























© Web S 
信息 在 这 样 的 图 中 是 如 何 

















算法 


动态 扩散 的 ， 以 及 如 











息 在 
结构 。 速度 很 快 的 图 元 








在 许多 这 类 研究 中 


九 。 





























界 的 推理 








“六 级 分 离 ” 
例如 ，Web 医 
何 确认 “ 社 
扮演 了 一 个 关键 的 角色 。 关 于 这 些 话题 的 简 
单 介 绍 ， 可 以 参阅 Networks,，Crowds, and Markets: Reasoning 
World 《网 络 、 人 群 和 市 场 ， 关 于 高 度 互联 世 





作者 为 David Easley 和 Jon Kleinberg。 





过 | 





密切 





晶 是 ， 对 Web 图 的 结构 进行 重新 评估 的 最 新 研究 表明 ， 
人 发 现 的 数量 关系 仍然 是 准确 


相关 。 





区 











是 如 何 随 着 时 间 而 演变 的 ， 











区 ”或 

















其 他 有 意义 的 精细 粒度 的 




















About a Highly Connected 





》)〔 剑 








桥 大 学 出 版 社 ，2010)， 其 


EY 
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2.8 ”本 章 要 所 




















。 宽度 优先 的 搜索 (BFS) 按 层 次 对 图 进行 精心 的 探索 。 
。 BFS 可 以 使 用 队列 数据 结构 在 线性 时 间 内 实现 。 


。 BFS 可 以 在 线性 时 间 内 计算 一 个 起 始 项 点 和 其 他 所 有 顶点 之 间 的 最 短 
路 径 的 长 度 。 


。 无 向 图 的 连通 分 量 是 每 对 顶点 之 间 都 存在 一 条 路 径 的 最 大 顶点 子 集 。 

。 像 BFS 这 样 的 高 效 图 搜索 算法 可 以 在 线性 时 间 内 计算 无 向 图 的 连通 分 量 。 

。 深度 优先 的 搜索 (DFS》 采 用 激进 的 方式 对 图 进行 探索 ， 只 在 必要 时 才 
进行 回溯 。 

。 DFS 可 以 使 用 堆栈 数据 结构 〈 或 递归 ) 在 线性 时 间 内 实现 。 


。 有 向 图 的 拓扑 顺序 为 顶点 分 配 不 同 的 数值 标签 ， 每 条 边 从 具有 更 小 标签 
的 顶点 指向 具有 更 大 标签 的 项 点。 


。 有 向 无 环 图 才 具 有 拓扑 顺序 。 
。 DFS 可 以 在 线性 时 间 内 计算 有 向 无 环 图 的 拓扑 顺序 。 


。 有 向 图 的 强 连 通 分 量 是 一 个 最 大 项 点 子 集 ， 集 合 中 的 任何 顶点 都 有 一 条 
有 向 路 径 通 向 集合 中 的 其 他 任何 顶点 。 


。 DFS 可 以 在 线性 时 间 内 计算 有 向 图 的 强 连通 分 量 。 
包含 了 


。 在 Web 图 中 , 一 个 巨型 的 强 连通 分 量 包含 了 大 约 28% 的 顶点 ， 它 的 内 部 
上 共有 丰富 的 连接 。 
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2.9 章 末 习题 





问题 2.1 下 面 哪些 说 法 是 正确 的 ? 与 往常 一 样 ，n 和 m 分 别 表示 一 个 图 的 
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顶点 数 和 边 数 。( 选 择 所 有 正确 的 答案 。) 
(a) 宽 


























度 优先 的 搜索 可 以 在 O(m+n) 时 间 内 计算 无 向 图 的 连通 分 量 。 
































Cb) 宽度 优先 的 搜索 可 以 在 O(m+n) 时 间 内 计算 从 一 个 起 始 顶 点 到 其 他 任何 
顶点 的 最 短路 径 的 长 度 ， 其 中 “最 短 ” 表 示 具 有 最 少 的 边 数 。 























(c) 深度 优先 的 搜索 可 以 在 O(m+n) 时 间 内 计算 有 向 图 的 强 连 通 分 量 。 


















































(d) 深度 优先 的 搜索 可 以 在 OGn+n) 时 间 内 计算 有 向 无 环 图 的 一 个 拓扑 顺序 。 
































问题 2.2 ”如 果 输 入 图 采用 邻接 矩阵 表示 形式 (而 不 是 邻接 列表 ), 那么 深度 
优先 的 搜索 的 运行 时 间 是 多 长 ? 用 nn 和 m〔( 顶 点数 和 边 数 ) 的 一 个 函数 来 表示 。 
可 以 假设 输入 图 中 不 存在 平行 边 。 


(a) O(m+n) 



































(b) Ol(m+n log n) 
(c) O(n’) 


(d) O(m-n) 





问题 2.3 ”这 个 问题 探索 7 了 与 图 的 距离 有 关 的 两 种 定义 之 间 的 关系 。 在 这 个 问 
题 中 ， 我 们 只 考虑 无 向 连接 图 。 图 的 直径 是 指 在 顶点 v 和 w 的 所 有 选择 中 ，v 和 w 
之 间 的 最 短路 径 的 最 大 值 。 "接着 ， 对 于 顶点 w /表示 在 所 有 其 他 顶点 和 中，v 和 
w 之 间 的 最 短路 径 的 最 大 值 。 图 的 半径 是 指 在 顶点 v 的 所 有 选择 中 ，lv) 的 最 小 值 。 
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下 面 与 半径 x 和 直径 4 有 关 的 哪些 不 等 式 在 每 个 无 向 连接 图 中 都 是 成 并 的 ? 
(选择 所 有 正确 的 答案 。) 


(a 4 





























(b) rd 


(Cc) 7 之 


(d) 7 过 q 




















QD 注意 ,，v 和 w 之 间 的 最 短路 径 长 度 是 具有 最 少 边 数 的 ww 路 径 。 
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问题 2.4 有 向 图 在 什么 时 候 具 有 唯一 的 拓扑 顺序 ? 

(a) 当 它 是 个 有 向 无 环 图 时 。 

(Cb) 当 它 具有 唯一 的 环 时 。 

(c) 当 它 包含 了 一 条 正好 只 访问 每 个 顶点 1 次 的 有 向 路 径 时 。 

Cd) 上 述 选项 都 不 正确 。 

问题 2.5 ”考虑 在 一 个 并 非 有 向 无 环 图 的 有 向 图 G 上 运行 2.5 节 的 TopoSort 
算法 。 这 个 算法 将 无 法 计算 出 一 个 拓扑 顺序 〈 因 为 不 存在 )。 它 能 否 计算 出 一 种 
向 后 访问 的 边 数 最 少 的 顶点 顺序 呢 〈 见 图 2.31) ? (选择 所 有 正确 的 答案 。) 

(a) TopoSort 算法 总 是 能 够 计算 具有 最 少 的 向 后 访问 边 的 顶点 顺序 。 

(b) TopoSort 算法 无 法 计算 具有 最 少 的 向 后 访问 边 的 顶点 顺序 。 

(c) TopoSort 算法 有 时 能 够 计算 具有 最 少 的 向 后 访问 边 的 顶点 顺序 ， 有 时 无 
法 计算 。 

Cd) 当 且 仅 当 输入 图 是 有 向 环 时 ，TopoSort 算法 才能 计算 具有 最 长 的 向 后 访 
问 边 的 顶点 顺序 。 
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2.31 不 存在 拓扑 顺序 的 图 。 在 s、v、w、t 这 个 顺序 中 ， 唯 一 的 向 后 边 是 (1, s) 




















wl 


问题 2.6 如果 向 一 个 有 向 图 G 添加 一 条 新 边 ， 那 么 强 连 通 分 量 的 数 
_  。( 选 择 所 有 正确 的 答案 。) 

(a) 可 能 不 变 ， 也 可 能 改变 (取决 于 G 以 及 这 条 新 边 )。 

(b) 不 可 能 减少 。 
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(c) 不 可 能 增 力 


He 





(d) 减少 的 数量 


问题 2.7 回顾 


EE 不 可 能 超过 1。 























2.6 节 的 Kosaraju 算法 ， 它 使 用 了 两 遍 深度 优 先 的 搜索 计 






































有 向 图 的 强 连通 分 量 。 下 面 哪些 说 法 是 正确 的 ? (选择 所 有 正确 的 答案 。) 


























(a) 如 果 这 个 算法 把 它 的 两 遍 搜 索 中 的 深度 优先 的 搜索 修改 为 宽度 优先 的 搜 

















索 ， 那 么 它 仍然 是 


正确 的 。 























(b) 如 果 这 个 








法 把 第 1 遍 深 度 优先 的 搜索 修改 为 宽度 优先 的 搜索 ， 那 么 





它 仍 然 是 正确 的 。 


























法 把 第 2 所 深度 优先 的 搜索 修改 为 宽度 优先 的 搜索 ， 那 么 


车 





(c) 如 果 这 个 
它 仍然 是 正确 的 。 


























Cd) 这 个 算法 必须 在 它 的 两 融 搜 索 中 均 使 用 深度 优先 的 搜索 才能 保持 正确 。 


问题 2.8 ”继续 
版 本 进行 操作 ,第 2 
择 所 有 正确 的 答案 。 
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已 





























回顾 Kosaraju 算法 ， 第 1 遍 深 度 优先 的 算法 对 输入 图 的 反 向 
遍 则 对 原始 的 输入 图 进行 操作 。 下 面 哪些 说 法 是 正确 的 ?( 选 
) 



















































































) 如 果 这 个 算法 在 第 1 裔 搜索 时 按 升序 而 不 是 降序 ) 分 配 顶点 位 置 ， 并 在 





























第 2 遍 搜索 时 按 项 点 位 置 的 降序 〈 而 不 是 升序 ) 处 理 顶 点 ， 那 么 它 仍然 是 正确 的 。 
































(b) 如 果 这 个 























法 在 第 1 遍 搜 索 时 使 用 原始 的 输入 图 并 在 第 2 换 搜 索 时 使 














用 它 的 反 转 图 ， 那 么 它 仍然 是 正确 的 。 
































法 在 两 咒 搜 索 时 均 使 用 原始 的 输入 图 ， 只 要 在 第 1 遍 搜索 








(c) 如 果 这 个 














时 它 按 升序 而 不 是 降序 ) 分 配 顶 点 位 置 ， 它 仍然 是 正确 的 。 





























Cd) 如 果 这 个 算法 在 两 这 搜索 时 均 使 用 原始 的 输入 图 ， 只 要 它 在 第 2 遍 搜 















































索 时 按 顶点 位 置 的 降序 (而 不 是 升序 ) 处理 顶 点 ， 它 仍然 是 正确 的 。 














挑战 题 


问题 2.9 在 2 
































SAT 问题 中 ， 我 们 面 对 一 组 子 句 。 每 个 子 句 都 是 两 个 文字 值 






































的 逻辑 “或 ”(or) 结果 (文字 值 是 个 布尔 变量 或 布尔 变量 的 求 反 )。 我 们 希望 为 
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每 个 变量 赋 一 个 “true” 或 “false” 值 ， 使 所 有 的 子 句 都 得 到 满足 ， 也 就 是 子 句 
中 至 少 有 一 个 文字 值 为 “true”。 例如， 如 果 输 入 中 包含 x Vxz、-x1Vx3 和 x2V 
wx3 共 3 个子 句 ， 那 么 满足 所 有 3 个 子 句 的 一 种 方法 是 把 xl 和 x 设置 为 “true”， 
把 x 设置 为 “false”。" 在 其 他 7 种 可 能 的 真 值 赋值 中 ， 只 有 1 种 满足 全 部 3 个 
子 句 。 


设计 一 种 算法 ， 判 断 一 个 特定 的 2SAT 实例 是 否 至 少 具有 1 种 满足 的 赋值 方 
式 〈 这 个 算法 只 负责 决定 是 否 存在 一 个 满足 的 赋值 方式 ， 它 不 需要 显示 具体 的 赋 
值 )。 这 个 算法 的 运行 时 间 应 该 是 OGmtn)， 其 中 m 和 分 别 是 子 句 和 变量 的 数量 。 


提示 : 说 明 如 何 通过 计算 一 个 适当 定义 的 有 向 图 的 强 连通 分 量 来 解决 这 个 




















































































































































































































问 
编程 题 


问题 2.10 用 自己 喜欢 的 编程 语言 实现 2.6 节 介绍 的 Kosaraju 算法 ， 并 用 
它 计算 不 同 的 有 向 图 的 5 个 最 大 强 连通 分 量 。 我 们 可 以 实现 深度 优先 的 搜索 的 和 迭 
代 版 本 或 递归 版 本 ， 也 可 以 同时 实现 两 者 (参见 第 40 页 的 脚注 @))。( 关 于 测试 
用 例 和 挑战 数据 集 ， 参 见 www.algorithmsilluminated.org。) 


沼 
: 

























































































@ 符号 “VY” 表示 地 辑 “或” 操作,“-” 表 示 一 个 布尔 变量 的 求 反 。 
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现在 ， 我 们 准备 介绍 计算 机 科学 史上 伟大 的 成 就 之 一 : Dijkstra 最 短路 径 外 
法 "”。 这 个 算法 适用 于 边 的 长 度 均 不 为 负数 的 有 向 图 ， 它 计算 从 一 个 起 始 顶点 到 
其 他 所 有 顶点 的 最 短路 径 的 长 度 。 在 正式 定义 这 个 问题 (3.1 节 ) 之 后 ， 我 们 讲解 
这 个 算法 (3.2 节 ) 以 及 它 的 正确 性 证 明 (3.3 节 )， 然 后 介绍 一 个 简单 直接 的 实 
现 (3.4 节 )。 在 第 4 章 中 ， 我 们 将 看 到 这 种 算法 的 一 种 令 人 惊叹 的 快速 实现 ， 它 
充分 利用 了 堆 这 种 数据 结构 。 










































































































































































3.1 单 源 最 短路 径 问题 


3.1.1 ”问题 定义 


Dijkstra 算法 解决 了 单 源 最 短路 径 问 题 。” 























Q@ Dijkstra 最 短路 径 算 法 是 Edsger W. Dijkstra 于 1956 年 发 现 的 (多 年 以 后 , 他 在 一 次 采访 时 表示 当时 只 
了 20 分 钟 就 想 出 了 这 种 算法 )。 还 有 几 位 研究 人 员 在 20 世纪 50 年 代 后 期 也 发 现 了 这 种 算法 。 
@) 问题 名 称 中 的 “ 单 源 ”表示 给 定 的 起 始 顶点 。 我 们 已 经 使 用 “起 始 顶 点 ”这 个 术语 表示 一 个 有 向 图 的 

某 个 顶点 没有 入 射 边 (2.5.2 节 )。 为 了 与 第 2 章 的 术语 保持 一 致 ， 我 们 将 沿用 “起 始 顶点 ”这 种 说 法 。 




























































































YN 3.1 单 源 最 短路 径 问题 


问题 : 单 源 最 短路 径 
输入 : 有 向 图 G=(V, BE)， 起 始 顶 点 seV， 并 且 每 条 边 eeE 的 长 度 1。 均 为 非 
负 值 。 
输出 : 每 个 顶点 ve 了 的 dist(s,v)。 


注意 ，dist(s,v) 这 种 记 法 表示 从 s 到 v 的 最 短路 径 的 长 度 〈 如 果 不 存在 从 s 
到 vw 的 路 径 ，dist(s,v) 就 是 +co)。 所 请 路 径 的 长 度 ， 就 是 组 成 这 条 路 径 的 各 条 边 的 
长 度 之 和 。 例 如 ， 在 一 个 每 条 边 的 长 度 均 为 1 的 图 中 ， 路 径 的 长 度 就 是 它 所 包含 
的 边 的 数量 。 从 顶点 v 到 顶点 w 的 最 短路 径 就 是 所 有 从 v 到 w 的 路 径 中 长 度 最 

例如 ， 如 果 一 个 图 表示 道路 网 ， 每 条 边 的 长 度 表 示 从 一 端 到 另 一 端的 预期 行 
车 时 间 ， 那 么 单 源 最 短路 径 问 题 就 成 为 计算 从 一 个 起 始 顶 点 到 所 有 可 能 的 目 
地 的 行车 时 间 的 问题 。 




























































































小 测验 3.1 


考虑 单 源 最 短路 径 问 题 的 下 面 这 个 输入 ， 起 始 顶 点 为 s， 每 个 边 都 有 一 个 标签 
标识 了 它 的 长 度 : 





从 s 出 发 到 s、v、w 和 + 的 最 短 距离 分 别 是 多 少 ? 
(a) 0, 1, 2, 3 
(b)0, 1, 3, 6 
(c) 0, 1, 4, 6 
(d) 0, 1, 4, 7 








(正确 答案 和 详细 解释 参见 3.1.4 节 。) 
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3.1.2 一 些 前 提 条 件 


方便 起 见 ， 我 们 假设 本 章 中 的 输入 图 是 有 向 图 。 经 过 一 些微 小 的 戏剧 怕 
图 (可 以 进行 验证 )。 
9 楚 地 表明 : 我 们 假设 每 条 边 的 长 





之 后 ，Dijkstra 算法 同样 适用 于 无 向 











另 一 个 前 提 条 件 比 较 重 要 。 问 题 陈述 已 经 济 












































修改 


度 是 非 负 的 。 在 许多 应 用 中 《例如 计算 行车 路 线 )， 边 的 长 度 天 然 就 是 非 负 的 





《除非 涉及 时 光 机 器 )， 完 全 不 需要 担心 这 个 问题 。 但 是 ,我 们 要 记 住 ， 图 











也 可 以 表示 抽象 的 决策 序列 。 例 如 ， 也 许 我 们 希望 计算 涉及 购买 和 销 











交易 序列 的 利润。 这 个 问题 相当 于 在 一 个 
寻找 最 短路 径 。 在 边 的 长 度 可 能 为 负 的 应 用 上 











具体 原因 可 以 参考 3.3.1 节 。” 














3.1.3 ”为 什么 不 使 用 宽度 优先 的 搜索 


如 2.2 节 所 述 ， 宽 度 优先 的 搜索 的 一 个 “杀手 ”级 应 月 


边 的 长 度 可 能 为 正 
PF， 我 们 不 应 该 使 用 Dijkstra 算法 ， 


























顶点 出 发 的 最 短路 径 。 我 们 为 什么 需要 另 一 种 最 短路 径 
记 住 ， 宽 度 优先 的 搜索 计算 的 是 从 起 始 顶 点 到 每 个 其 他 顶点 的 边 数 最 少 的 路 径 ， 








这 是 单 源 最 短路 径 问 题 中 每 条 边 的 长 度 均 为 1 这 种 特殊 情况 。 我 们 在 小 测验 3.1 中 




































































的 路 径 


的 金融 


也 可 能 为 负 的 
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日 就 是 计生 











已 





EE? 
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多 应 用 ， 例 如 计算 行车 路 线 或 金融 交易 序列 ， 不 可 避免 地 涉及 不 同 长 度 的 边 。 

































































组 成 的 路 径 吗 ? 




















Da 














(D 在 本 系列 

















I 





书 的 第 3 卷 中 ,我 们 将 学 习 更 加 基本 的 向 
许 出 现 长 度 为 负 的 边 。 这 些 算法 包括 著名 的 Bellman-Ford 算法 。 








-二 























图 中 











起 始 





看 到 ， 对 于 通用 的 非 负 长 度 边 ， 最 短路 径 并 不 一 定 是 边 数 最 少 的 路 径 。 最 短路 径 的 许 


但 是 ， 读 者 可 能 会 觉得 ， 通 用 的 最 短路 径 问题 与 这 种 特殊 情况 真 的 存在 


这 
么 大 的 区 别 吗 ? 如 图 3.1 所 示 , 我 们 不 能 把 一 条 更 长 的 边 看 成 3 条 长 度 为 1 的 边 





源 最 短路 径 问题 的 高 效 算法 。 在 这 种 问题 中 ， 多 


YN ”3.1 单 源 最 短路 径 问 题 73 











事实 上 ,“ 一 条 长 度 为 正 整 数 《 的 边 ” 和 “一 条 由 《条 长 度 为 1 的 边 所 组 成 的 
路 径 ” 之 间 并 没有 本 质 的 区 别 。 在 原则 上 ， 我 们 可 以 把 每 条 边 展 开 为 由 多 条 长 度 
为 1 的 边 组 成 的 路 径 ， 然 后 应 用 宽度 优先 的 搜索 对 图 进行 展开 来 解决 单 源 最 短 
路 径 问题 。 

这 是 把 一 个 问题 简化 为 男 一 个 问题 的 一 个 例子 。 在 这 个 例子 中 ， 就 是 从 边 的 
长 度 为 正 整 数 的 单 源 最 短路 径 问题 简化 为 每 条 边 的 长 度 均 为 1 的 特殊 情况 。 

这 种 简化 的 主要 问题 是 它 扩 大 了 图 的 规模 。 如 果 所 有 边 的 长 度 都 是 小 整 
数 ， 那 么 这 种 扩张 并 不 是 严重 的 问题 。 但 在 实际 应 用 中 ， 情 况 并 不 一 定 如 此 。 
某 条 边 的 长 度 很 可 能 比 原 图 中 顶点 和 边 的 总 数 还 要 大 很 多 ! 宽度 优先 的 搜索 在 
扩张 后 的 图 中 的 运行 效率 是 线性 时 间 ， 但 这 种 线性 时 间 并 不 一 定 接近 原 图 长 度 
的 线性 时 间 。 


Dijkstra 算法 可 以 看 成 是 在 扩张 后 的 图 上 执行 宽度 优先 的 搜索 的 一 种 灵活 模 
拟 ， 它 只 对 原始 输入 图 进行 操作 ， 其 运行 时 间 为 近似 线性 。 













































































































































































































































































关于 简化 
果 一 种 能 够 解决 问题 B 的 算法 可 以 方便 地 经 过 转换 解决 问题 4, 那 
么 问题 4 就 可 以 简化 为 问题 B. 例如 , 计算 数组 的 中 位 元 素 的 问题 可 以 简 
化 为 对 数组 进行 排序 的 问题 ,简化 是 算法 及 其 限制 的 研究 中 非常 重要 的 概 
念 ， 具 有 极 强 的 实用 性 。 

我 们 总 是 应 该 寻求 问题 的 简化 。 当 我 们 遇 到 一 个 似乎 是 新 的 问题 
时 ， 总 是 要 问 自己 : 这 个 问题 是 不 是 一 个 我 们 已 经 知道 怎样 解决 的 问题 
的 伪装 版 本 呢 ? 或 者 ， 我 们 是 不 是 可 以 把 这 个 问题 的 通用 版 本 简化 为 一 
种 特殊 情况 呢 ? 








3.1.4 小 测验 3.1 的 答案 


正确 答案 : (pb)。 从 s 到 本 身 的 最 短路 径 的 长 度 为 0 以 及 从 s 到 v 的 最 短路 


径 得 法 上 





Dijkstra 最 短路 














径 的 长 度 为 1 不 需要 讨论 。 顶 点 w 稍 
有 向 边 (s,w)， 它 的 长 度 是 4。 但 是 ， 通过 













































































微 有 趣 一 点 。 从 s 到 w 的 其 
更 多 的 边 可 以 减少 总 长 度 : 路 径 s 一 vy 

















中 一 


条 路 径 是 






































一 w 的 长 度 只 有 1+2=3， 它 是 最 短 的 sw 路径。 类 似 地 ， 从 y 到 上 的 每 条 经 过 两 
次 跳跃 的 路 径 的 长 度 为 7， 而 那 条 更 迁 回 的 路 径 的 长 度 只 有 1+2+3=6。 
3.2 Dijkstra 算法 
3.2.1 伪 码 
Dijkstra 算法 的 高 层 结构 与 第 2 章 的 图 搜索 算法 相似 。" 它 的 主 循环 的 每 次 
迭代 处 理 一 个 新 的 顶点 。 这 个 算法 的 高 级 之 处 在 于 它 采 用 了 一 种 非常 “聪明 ?” 
的 规则 选择 接 下 来 处 理 哪 个 顶点 : 就 是 尚未 处 理 的 顶点 中 看 上 去 最 靠近 起 始 顶 



































点 的 那 一 个 。 下 面 的 伪 码 精确 地 描述 了 这 个 思路 。 




















Dijkstra 算法 
输入 : 邻接 列表 表示 形式 的 有 向 边 G=(V,E)， 对 于 每 
于 或 等 于 0. 
完成 状态 


边 ee 已 ， 它 的 长 度 都 大 


: 对 于 每 个 顶点 v，len(v) 的 值 等 于 真正 的 最 短路 径 长 度 dist(s,v)。 





// 初始 化 

1 XxX := {s} 

2 len(s) := 0， 
// 主 循环 

3 while 存在 一 条 边 (v w) 
4 (vw*，w*) := 具有 最 小 的 Jen( 
5 把 w 沁 加 到 X 中 
6 len(w*) := 


个 vzs 





len(v) := +% for 每 





， VEX, WEX do 


V)+ 《的 边 


























集合 全 包含 了 这 个 算法 已 经 处 理 过 的 顶点 。 一 开始 ， 


























QD 当 所 有 的 边 的 长 度 为 1 时， 它 就 等 同 于 宽度 优先 的 搜索 (可 以 进行 验证 )。 





六 只 包含 了 起 始 顶 点 








N 3.2 Dijkstra 算法 


(当然 ，/enr(s)=0)， 然 后 这 个 集合 不 断 增 长 ， 直 到 它 覆 盖 了 从 s 可 以 到 达 的 所 有 
顶点 。 当 这 个 算法 把 一 个 顶点 添加 到 时， 它 同 时 为 这 个 顶点 的 len 值 赋 一 个 有 
限 的 值 。 主 循环 的 每 次 迭代 向 卫 添 加 一 个 新 顶点 ， 即 某 条 从 天 跨越 到 矿 XY 的 边 
(aw) 的 头顶 点 (图 3.2)。( 如 果 不 存在 这 样 的 边 ， 算 法 就 会 终止 ， 对 于 所 有 的 vg 六 ， 
都 有 len(v)=+co。) 符合 条 件 的 边 可 能 有 多 条 ，Dijkstra 算法 选择 Dijkstra 得 分 最 
低 的 那 条 边 (v,w)， 它 被 定义 为 















































len(V)+L,, (3.1) 








注意 ，Dijkstra 得 分 是 根据 边 进行 定义 的 ,顶点 wg 可 能 是 许多 不 同 的 从 了 
跨越 到 六 XY 的 边 的 头顶 点 ， 这 些 边 一 般 具 有 不 同 的 Dijkstra 得 分 。 

















已 处 理 尚未 处 理 





边界 
图 3.2” Dijkstra 算法 的 每 次 迭代 处 理 一 个 新 顶点 ， 
即 一 条 从 丈 跨 越 到 天 总 的 边 的 头顶 点 









































我 们 可 以 把 一 条 边 (v,w) (veX,wgX) 的 Dijkstra 得 分 与 一 个 假想 相关 联 。 
这 个 假想 就 是 : 从 到 w 的 最 短路 径 是 由 一 条 从 s 到 v 的 最 短路 径 〈 其 长 度 
应 该 是 len(v)) 和 一 条 紧 随 其 后 的 边 (v,w)〔 其 长 度 为 4,, ) 所 组 成 的 。 因 此 ， 
Dijkstra 算法 根据 已 经 计算 出 来 的 最 短路 径 的 长 度 ， 并 根据 从 蕊 跨越 到 天 并 
的 各 条 边 的 长 度 ， 在 尚未 处 理 的 顶点 中 选择 添加 看 上 去 最 靠近 s 的 那个 顶点 。 
在 把 w* 添 加 到 邓 时 ， 这 个 算法 把 len(w*) 作 为 从 s 出 发 的 假想 最 短路 径 的 长 度 ， 
也 就 是 边 (v*,w*) 的 Dijkstra 得 分 len(v*)+(,,,s。 后 面 的 定理 3.1 规范 描述 的 
Dijkstra 算法 的 神奇 之 处 就 在 于 这 个 假想 保证 是 正确 的 , 即使 这 个 算法 目前 只 
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人 介子 


下 面 我 们 根据 小 测验 3. 


是 观察 了 整个 图 的 很 小 一 部 分 。” 

















1 的 例子 对 Dijkstra 算法 进行 试验 : 





一 开始 ， 集 合子 只 包含 
有 (s,v) 和 和 (s,w) 两 条 边 从 针 跨 越 到 (因此 它们 均 可 以 扮演 (v*,w*) 的 角色 )。 这 








了 顶点 s， 且 len(s)=0。 在 主 循环 的 














两 条 边 的 Dijkstra 得 分 (由 

















第 1 次 达 代 中 ， 








式 〈3.1) 所 定义 ) 分 别 是 len(s)+,,=0+1=1 和 


lenr(s)+ 4 ,=0+4=4。 由 于 前 者 的 得 分 更 低 ， 因 此 它 的 头顶 点 就 被 添加 到 也 中 ， 
并 且 len@Y) 被 赋值 为 边 (s,v) 的 Dijkstra 得 分 ， 其 值 为 1。 在 第 2 次 迭代 时 ， 丰 {5,v}， 
边 可 以 扮演 (v*,w*) 的 角色 。 它 们 的 Dijkstra 得 分 分 别 





























有 (s,w)、Q@,w) 和 (wv,) 共 3 条 边 








到 子 中 ，len(w) 被 赋值 为 3 


在 最 后 一 次 和 代 中 被 尖 加 到 《唯一 未 被 处 理 的 项 点) ， 但 仍然 要 确定 它 是 
计算 /enr(D) 。 由 于 (六 和 (w 鸭 的 Dijkstra 得 分 分 别 是 
集合 全 包 
结束 。len(s)=0，len(v)=1， 
的 真正 最 短路 径 的 长 度 


因为 哪 条 边 而 被 添加 (为 了 





1+6=7 和 3+3=6， 因 此 len(7) 被 设置 为 较 小 的 值 6。 现 在 ， 
点 ， 不 再 有 任何 边 从 XY 跨 越 到 态 X， 因 此 算法 就 宣告 
len(w)=3，len(?)=6 这 几 个 值 与 我 们 在 小 测验 3.1 中 所 验证 








是 匹配 的 。 








是 0+4=4、1+2=3 和 1+6=7。 























由 于 (v,w) 具 有 最 低 的 Dijkstra 得 分 ， 


((v,w) 的 Dijkstra 得 分 ) 。 我 们 已 经 知道 





因此 w 被 添加 
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当然 ， 一 个 算法 在 一 个 特定 的 例子 上 是 了 





QD 为 了 计算 最 短路 径 本 身 ( 而 不 仅 











在 主 while 循环 的 一 次 迭代 (第 





























到 返回 s。 























顺 着 predecessor 指针 从 v 返回， 




















包含 了 所 有 的 顶 





E 确 的 并 不 能 就 此 说 明 它 在 所 有 情况 





仅 是 它们 的 长 度 ), 把 一 个 指针 predecessor(v) 与 每 个 顶点 ve 严 相 关联 。 
4 一 6 行 ) 中 选中 一 条 边 (v*,w*) 时 ， 把 predecessor(w#) 赋 值 给 负责 选择 
w* 的 六 。 在 算法 结束 时 ， 为 了 重 构 一 条 从 到 顶点 x 的 最 短路 径 ， 









































NN *3.3 为 什么 Dijkstra 算法 是 正确 的 








下 都 是 正确 的 ! ?事实 上 ,Dijkstra 算法 并 不 能 正确 地 计算 边 的 长 度 可 能 为 负 时 的 
最 短路 径 长 度 〈 如 3.3.1 节 所 述 ) 。 我 们 在 一 开始 就 应 该 对 Dijkstra 算法 保持 怀 
疑 ， 要求 给 出 它 的 证 明 ， 至 少 要 证 明 对 于 边 的 长 度 非 负 的 图 ， 它 能 够 正确 地 解决 
单 源 最 短路 径 问题 。 
























































*3.3 为 什么 Dijkstra 算法 是 正确 的 


3.3.1 一 种 虚假 的 简化 


读者 可 能 会 觉得 奇怪 ， 边 的 长 度 是 否 为 负 为 什么 会 有 影响 呢 ? 难道 不 能 把 每 
条 边 的 长 度 都 加 上 同一 个 很 大 的 数字 ， 让 所 有 边 的 长 度 都 为 非 负 吗 ? 

这 是 一 个 很 好 的 思路 ， 我 们 总 是 应 该 寻求 是 否 能 够 把 待 解决 的 问题 简化 为 
已 经 知道 怎样 解决 的 问题 。 可 惜 的 是 ， 我 们 不 能 按照 这 种 方式 把 通用 边 长 的 单 
源 最 短路 径 问题 简化 为 非 负 边 长 的 特殊 情况 。 问 题 在 于 从 一 个 顶点 到 另 一 个 项 
点 的 不 同 路 径 并 不 一 定 具 有 相同 数量 的 边 。 如 果 我 们 把 每 条 边 的 长 度 都 加 上 一 
个 数 ， 不 同 路 径 所 增加 的 数量 可 能 并 不 相同 ， 新 图 的 最 短路 径 可 能 与 原 图 并 不 
相同 。 图 3.3 所 示 的 是 一 个 简单 的 例子 。 



















































































3.3 ” 单 源 最 短路 径 问 题 举 例 

















从 s 到 1 共有 两 条 路 径 : 直接 路 径 〈 长 度 为 -2 ) 和 经 过 两 次 跳跃 的 路 径 一 "一 ! 
(长 度 为 1+(-5)=-4)。 

后 者 的 长 度 更 长 〈 即 绝对 值 更 大 的 负 值 )， 因 此 是 最 短 的 s-t 路径 。 

为 了 使 这 张 图 具有 非 负 的 边 长 ,我 们 可 以 把 每 条 边 的 长 度 都 加 上 5， 结果 如 







































































(D 即使 是 一 台 坏 掉 的 模拟 时 钟 每 天 也 有 两 次 走 对 的 时 候 。 
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图 3.4 所 示 。 











图 3.4 每 条 边 长 度 加 5 后 的 路 径 




















从 s 到 + 的 最 短路 径 变 成 了 直达 的 s-t 边 (长 度 为 3, 小 于 另 一 条 长 度 为 6 的 路 























径 )。 在 转换 后 的 图 中 运行 最 短路 径 算法 所 产生 的 结果 与 原 图 不 同 。 


3.3.2 ” Dijkstra 算法 的 一 个 糟糕 例子 






































如 果 我 们 在 一 个 某 些 边 的 长 度 为 负 的 图 (例如 3.3.1 节 中 的 图 ) 上 i 
法 ,会 发 生 什么 情况 呢 ? 一 开始 ， 丰 {5} 且 len(s)=0， 此 时 一 切 正 常 。 
循环 的 第 1 次 迭代 中 ， 这 个 算法 计算 边 (s,v) 和 (s,?) 的 Dijkstra 得 分 ， 
len(s)+4,,= 0+1=1 和 len(s)+4,,=0+(-2) = 一 2。 后 者 的 得 分 更 低 ， 因 此 这 个 算法 把 








































































































顶点 1 添加 到 承 中 ， 并 把 /en( 赋 值 为 -2。 我 们 已 经 注意 到 ， 从 s 到 上 的 实际 最 短 
路 径 〈 路 径 s 一 v1) 的 长 度 是 -4。 因 此 ， 我 们 可 以 得 出 结论 ， 如 果 图 中 某 些 边 












































的 长 度 为 负 ，Dijkstra 就 无 法 计算 正确 的 最 短路 径 长 度 。 
3.3.3” 非 负 边 长 时 的 正确 性 




















算法 的 正确 性 证 明 多 少 带 有 一 点 学 究 气 。 对 于 在 直觉 上 强烈 地 认为 是 正确 的 外 






















































































法 ， 我 常常 会 省 略 它们 的 正确 性 证 明 。Dijkstra 算法 并 不 是 这 样 。 首 先 ， 它 不 适用 
于 边 的 长 度 为 负 的 图 〈 即 使 是 非常 简单 的 图 ， 如 3.3.1 节 所 述 ) 的 情况 已 经 让 我 们 

































































心 生 疑虑 。 其 次 ，Dijkstra 得 分 这 个 概念 〈 见 3.1 节 ) 看 上 去 有 点 神秘 


至 有 点 随意 ， 















































它 为 什么 非常 重要 呢 ? 为 了 解决 这 些 疑 虑 ， 并 且 由 于 它 是 一 种 非常 重要 的 基本 算 
法 ， 因 此 我 们 需要 花 点 时 间 仔 细 地 证 明 它 的 正确 性 〈 在 边 的 长 度 非 负 的 图 中 ) 。 
定理 3.1 (Dijkstra 算法 的 正确 性 ) ”对 于 每 个 有 向 图 G= (VE)、 每 个 起 始 顶 
























































点 s 并 且 所 有 边 长 均 为 非 负 值 ， 对 于 每 个 顶点 veV，Dijkstra 
len(v) = dist(swv) 痢 成立 。 





























法 的 结论 


短路 径 长 度 的 正确 性 。 记 住 ， 根 据 数学 归纳 法 所 进行 的 证 明 采 用 了 一 个 相对 刻 
板 的 模板 ， 它 的 目的 是 建立 一 个 对 于 每 个 正 整数 都 成 立 的 断言 P(A)。 在 定理 
3.1 的 证 明 中 ， 我 们 把 P( 有 定义 为 :“ 在 Dijkstra 算法 中 ， 对 于 第 











3 *3.3 为 什么 Dijkstra 算法 是 正确 的 




















归纳 之 旅 
我 们 的 计划 是 根据 主 循环 的 迭代 数量 进行 归纳 ,逐个 计算 Dijkstra 算法 的 最 




























































































个 添加 到 了 凶 中 














的 顶点 v， 存 在 Ilen(v)=dist(s,v)。” 


























与 递归 算法 类 似 ， 通 过 数学 归纳 法 所 进行 的 证 明 分 为 一 个 基本 条 件 和 一 个 




















归纳 步 又 两 个 部 分 。 基 本 条 件 直接 证 明了 P(1) 是 正确 的 。 在 归纳 步骤 中 ， 我 们 假 
设 P(1)…,P(k-1) 都 是 正确 的 ， 这 称 为 归纳 假设 。 我 们 使 用 这 个 假设 证 明 P( 昌 也 
是 正确 的 。 如 果 基 本 条 件 和 归纳 步骤 得 到 了 证 明 ， 那 么 _P( 昌 对 于 每 个 正 整数 大 
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定 也 是 正确 的 。 根 据 基本 条 件 ，P(1) 是 正确 的 。 不 断 地 应 用 归纳 步骤 显示 了 对 
于 任意 大 的 大 值 ，P(D 都 是 正确 的 。 














关于 证 明 的 阅读 
数学 论证 根据 前 提 条 件 推导 出 结论 。 在 阅读 证 明 的 时 候 ， 总 是 要 保证 
理解 了 论证 中 的 每 个 前 提 条 件 的 用 法 ， 并 理解 为 什么 缺少 任何 一 个 前 提 条 
件 就 会 导致 论证 失败 。 
记 住 这 一 点 之 后 , 仔细 观察 定理 3.1 的 证 明 中 两 个 关键 的 前 提 条 件 所 
扮演 的 角色 : 边 的 长 度 是 非 负 的 以 及 算法 总 是 会 选择 有 具有 最 低 Dijkstra 得 


分 的 边 。 在 证 明定 理 3.1 时 ， 如 果 不 能 支持 这 两 个 前 提 条 件 ， 那 么 证 明 过 
程 必然 是 失败 的 。 





定理 3.1 的 证 明 
我 们 继续 进行 归纳 ，P( 有 表示 Dijkstra 算法 可 以 正确 地 计算 添加 到 集合 碟 的 




















第 个 顶点 的 最 短路 径 的 长 度 。 对 于 基本 条 件 〈E=1) ， 我 们 知道 添加 到 碟 的 第 1 个 
顶点 是 起 始 顶 点 s。Dijkstra 算法 把 0 赋值 给 len(s)。 由 于 每 条 边 都 具有 非 负 的 长 度 ， 
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因此 从 xs 到 它 本 身 的 最 短路 径 是 一 条 空 路 径 , 长 度 为 0。 因此, len(s)=0=dist(s,s)， 
这 就 证 明了 P(1) 是 成 立 的 。 

对 于 归纳 步骤 ， 选 择 k>1 并 假设 P(1)…,P(k-1) 都 是 正确 的 ， 对 于 Dijkstra 
算法 添加 到 对 的 前 1 个 顶点 ，Ien(v)=dist(s,v)。 设 w* 表 示 添 加 到 对 的 第 个 顶 
点 ， 并 用 (v*,w*) 表 示 在 对 应 的 那 次 迭代 中 (此 时 y* 必 然 已 经 在 卫 中 ) 所 选择 的 

。 算 法 把 len(w*) 赋 值 为 这 条 边 的 Dijkstra 得 分 ， 即 len(v*)+ 6,,s。 我 们 希望 这 
直 与 真正 的 最 短路 径 长 度 dist(s,w*) 相 同 ， 但 事实 确实 如 此 吗 ? 

我 们 分 两 个 部 分 论证 这 个 结论 的 正确 性 。 首 先 ， 我们 证 明 真 正 的 长 度 
dist(s,w*) 只 可 能 小 于 算法 所 推测 的 len@w*)， 即 dist(sw*) 三 len(w*)。 由 于 当 边 
G(x*,w*) 被 选中 时 ，v* 己 经 在 镁 中， 因此 它 是 添加 到 了 凶 的 前 大 1 个 顶点 之 一 。 根 
据 归纳 假设 ，Dijkstra 算法 正确 地 计算 了 v* 的 最 短路 径 长 度 : len(v*)=dist(s,v*)。 
体 地 说 ， 存 在 一 条 从 s 到 vw* 的 路 径 P， 它 的 长 度 正好 是 lenQx*)。 在 PP 的 末端 添加 
边 (Q*w*) 就 产生 了 一 条 从 s 到 wx* 的 路 径 Px， 它 的 长 度 是 len(w*)+ 4, =len(w*)( 图 
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3.5)。s-w* 路 径 的 最 短路 径 除 了 候选 路 径 P* 之 外 不 会 再 有 其 他 路 径 ， 因 此 
dist(s,w*) 不 可 能 大 于 len(w*)。 


最 短 的 s-v* 路 径 忆 
(长 度 为 /len(v")) 





S-W* 路 径 P” (长 度 为 /en(w) +/w) 











图 3.5 在 s-v* 最 短路 径 的 末尾 添加 边 (v*, w*)， 产 生 一 条 s 到 w* 的 
最 短路 径 P*， 其 长 度 为 len(v*)+ Le 


























现在 ， 我 们 讨论 反方 向 的 不 等 式 dist(s,w*) 宇 len(w*)〔 证 明 这 一 点 之 后 就 可 
以 满足 len(w*)=disi(s,w*))。 换 而 言 之 ， 我 们 希望 证 明 图 3.2 中 的 路 径 P* 确 实 是 
sw* 的 最 短路 笃 ， 每 条 与 之 竞争 的 sw*# 路 径 的 长 度 都 不 会 小 于 len(w*)。 

我 们 随意 选择 一 条 s-w* 的 竞争 路 径 P'。 我 们 并 不 了 解 P'。 但 是 ， 我 们 知道 
它 源 于 s， 终 于 w*。 在 迭代 之 初 ，s 属于 集合 了 但 w* 不 属于 筷 由 于 它 是 从 丈 
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中 开始 并 在 下 之 外 结束 ,因此 路 径 P 器 越 了 对 和 地 的 边界 1 次 (图 3.6)。 设 Qy,z) 
表示 跨越 边界 的 书 的 第 1 条 边 (yeX 且 zgX)。? 























已 处 理 尚未 处 理 








图 3.6 每 条 s 一 w* 路 径 从 碟 跨 越 到 [天 和 至 少 1 次 














为 了 论证 P 的 长 度 不 会 小 于 len(w*)， 我 们 独立 地 考虑 它 的 3 个 片段 : P' 从 s 
到 y 的 起 始 部 分 、 边 Gz) 以 及 从 z 到 w* 的 最 终 部 分 。 起 始 部 分 不 可 能 短 于 从 s 到 
y 的 最 短路 径 ， 因 此 它 的 长 度 至 少 是 dist(s, y)。 边 Qy, z) 的 长 度 是 4 。 我 们 对 路 径 
的 最 终 部 分 并 不 十 分 了 解 ， 它 掩藏 在 算法 尚未 观察 的 顶点 之 中 。 但 是 ， 我 们 知道 
所 有 边 的 长 度 都 是 非 负 的 ! 也 就 是 说 ， 它 的 总 长 度 至 少 是 0， 如 图 3.7 所 示 。 





















































长 度 > dist(s,y)= len(y) CR 
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len(s,y) + I, > len(s,v') + lyw.= len(w’) 








图 3.7 总 长 度 计 算 




















QD 无 须 担 心 y=s 或 z=w*， 论 证 过 程 没有 问题 ,我 们 可 以 对 结果 进行 验证 。 














Dijkstra 最 短路 径 算 法 


把 这 3 个 部 分 的 长 度 下 界 相 加 ， 可 以 得 出 : 


万 的 长 度 之 dist(s,y) i 十 


0 
-一 一 一 一 Was 
5 一 y 子 路径 


边 0 2) ZW#+ 子 路 径 


(3.2) 


























得 分 进行 关 
此 它 是 前 大 1 个 添加 到 元 的 顶点 之 一 ， 归 纳 假设 表明 了 该 算法 会 
它 的 最 终 路 径 长 度 : dist(s, ylen(y)。 因 

















最 后 一 个 任务 是 把 式 (3.2) 中 的 长 度 下 界 与 指导 算法 决策 的 Dijkstra 和 
联 。 由 于 yeX， 因 


正确 地 计 


















































此 ， 不 等 式 (3.2) 可 以 转换 为 


已 的 长 度 壹 /enO)+H (3.3) 


CO 
边 (y,z) 的 Dijkstra 得 分 





式 (3.3) 的 右边 正 是 边 (y, z) 的 Dijkstra 得 分 。 由 于 这 个 算法 总 是 会 选择 具有 
最 低 Dijkstra 得 分 的 边 ， 并 且 因 为 它 在 这 次 迭代 中 选择 了 (vw*,w*) 而 不 是 (y, z)， 所 





















































三 





以 前 者 的 Dijkstra 得 分 更 低 : 


len(v*)+ {sr SlenQ) tL, 
p' 的 长 度 宇 len(v*)+4,,,, =len(w*) 
—— 
边 (v*,w*) 的 Dijkstra 得 分 
这 样 ， 我 们 就 完成 了 归纳 步骤 的 第 


的 每 个 顶点 v， 存 在 len(v)=dist(s,v)。 
为 了 进行 最 终 的 验证 


法 结束 时 ，len(v) =+ co 并 

































































现在 考虑 一 个 从 来 没有 被 添加 到 蕊 的 顶点 v。 当 这 个 


没有 任何 边 从 XY 跨 越 到 关系 这 意味 着 输入 图 中 不 存 
在 从 s 到 v 的 路 径 , 因为 这 样 的 路 径 肯 定 会 在 某 一 处 跨越 边界 。 因 
我 们 可 以 得 出 结论 ， 对 于 每 个 顶点 v， 如 果 len(v)=dist(s,v)， 
y 是 否 被 添加 到 了 对。 至此， 我们 就 完成 了 整个 证 明 过 程 。 


















































此 , dist(swv)=++o0。 
法 就 会 终止 ,不 管 



































3.4 ”算法 的 实现 及 其 运行 时 间 











Dijkstra 的 最 短路 径 算 法 让 我 们 回想 起 第 2 章 所 讨论 的 线性 时 间 的 图 搜索 
法 。 宽 度 优先 和 深度 优先 的 搜索 算法 能 够 以 线性 时 间 运 行 (定理 2.1 和 定理 2.4) 
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的 关键 原因 是 它们 在 决定 下 一 步 应 该 探索 哪个 顶点 时 只 需要 耗费 常数 级 的 时 间 
《从 队列 或 堆栈 的 头 部 移 除 一 个 顶点 ) 。 需 要 警惕 的 是 ，Dijkstra 算法 的 每 次 迭代 
必须 在 所 有 跨越 边界 的 边 中 选择 具有 最 低 Dijkstra 得 分 的 边 。 我 们 仍然 能 在 线 
性 时 间 内 实现 该 算法 吗 ? 















































小 测验 3.2 

下 面 哪个 运行 时 间 最 好 地 描述 了 应 用 于 邻接 列表 表示 形式 的 图 的 Dijkstra 算法 
的 简单 实现 ? 与 往常 一 样 ，n 和 m 分 别 表示 输入 图 的 顶点 数 和 边 数 。 

(a) O(m+n) 

(b) O(m logn) 

(c) O(n) 

(d) Ol(mn) 

(正确 答案 和 详细 解释 如 下 。) 

正确 答案 :(d)。Dijkstra 算法 的 简单 实现 通过 把 一 个 布尔 变量 与 每 个 顶点 相 
关联 来 记录 哪些 顶点 在 中 。 在 每 次 迭代 中 ， 它 对 所 有 的 边 执行 一 次 穷尽 式 的 
搜索 , 计算 每 条 尾 顶 点 在 邓 中 且 头 顶点 在 外 之 外 的 边 的 Dijkstra 得 分 (每 条 边 需 
要 常数 级 的 时 间 )， 并 返回 具有 最 低 得 分 值 的 那 条 跨越 边界 的 边 〈 或 确认 不 存在 
跨越 边界 的 边 )。 在 经 过 最 多 n -1 次 欠 代 之 后 ，Dijkstra 算法 已 经 把 所 有 需要 添 
加 的 新 顶点 添加 到 集合 忒 中 。 由 于 人 迭代 的 数量 是 O(n) 并 且 每 次 迭代 需要 O(m) 
的 时 间 ， 因 此 整体 运行 时 间 是 O(mn)。 


命题 3.1 (Dijkstra 的 运行 时 间 (简单 实现 )) “对 于 有 向 图 G=(7)、 起 始 
顶点 s 并 且 每 条 边 的 长 度 均 为 非 负 值 ，Dijkstra 算法 的 简单 实现 的 运行 时 间 为 
O(mn)， 其 中 m=|&|、n=|V|。 

虽然 这 种 简单 实现 的 运行 时 间 还 不 错 , 但 不 够 优秀 。 如 果 顶 点 的 数量 只 有 几 
百 个 或 者 一 两 千 个 ， 它 的 效率 还 算 不 错 。 但是， 对 于 那些 极为 庞大 的 图 ， 这 种 实 
现 的 效率 就 不 能 尽 如 人 意 。 我 们 能 不 能 做 得 更 好 ? 算法 设计 的 理想 效果 就 是 实现 
线性 时 间 的 算法 (或 近似 于 它 )， 我 们 希望 单 源 最 短路 径 问 题 也 能 够 实现 这 样 的 目 
标 。 这 样 的 算法 在 一 台 家 用 笔记 本 计算 机 上 就 可 以 处 理 具有 数 百 万 个 顶点 的 图 。 





































































































































































































































































































































































































第 3 章 Dijkstra 最短 路径 得 法 

















我 们 并 不 需要 一 种 更 好 的 算法 来 实现 该 问题 近似 线性 时 间 的 解决 方案 ,我 
们 只 需要 Dijkstra 算法 的 一 种 更 好 实现 。 在 宽度 优先 和 深度 优先 的 搜索 的 线性 


















































时 间 实 现 中 ,数据 结构 (队列 和 堆栈 ) 扮演 了 一 个 关键 的 角色 。 类 似 地 ，Dijkstra 


























算法 也 可 以 在 正确 的 数据 结构 的 帮助 下 ， 在 它 的 主 循环 中 实现 反复 的 最 小 值 计 
算 ， 从 而 实现 近似 线性 的 运行 时 间 。 这 种 数据 结构 称 为 堆 ， 它 是 第 4 章 的 主题 。 




















3.5 本章 要 扣 











。 在 单 源 最 短路 径 问 题 中 ， 问 题 的 输入 由 一 个 图 、 一 个 起 始 顶 点 和 每 条 边 
的 长 度 所 组 成 。 它 的 目标 是 计算 从 起 始 顶 点 到 其 他 每 个 顶点 的 最 短路 径 








的 长 度 。 

















e Dijkstra 


近 起 始 顶点 的 那个 顶点。 















































法 逐个 处 理 ] 





页 点 , 它 总 是 在 尚未 处 理 的 顶点 中 选择 看 上 去 最 靠 


= 
































。 通过 数学 归纳 法 可 以 证 明 Dijkstra 算法 能 够 正确 地 解决 当 输 入 图 的 边 长 


都 为 非 负 值 时 的 单 源 最 短路 径 问 题 。 



















































































。 当 输 入 图 中 有 些 边 的 长 度 为 负 值 时 , Dijkstra 算法 就 无 法 正确 地 解决 单 源 


最 短路 径 问 题 。 

















e Dijkstra 





问题 3.1 考虑 一 个 有 向 图 G， 它 的 每 条 边 的 长 度 各 不 相同 并 且 均 为 非 负 值 。 
假设 * 是 起 始 顶 点 ,，t 是 目标 顶点 ， 并 假设 G 中 至 少 存在 1 条 s-t 路 径 。 下 面 哪 



























































法 的 简单 实现 的 运行 时 间 是 O(mn), 其 中 m 和 分 别 表示 输入 


图 的 边 数 和 顶点 数 。 


3.6 ” 章 末 习 


六 















































些 说 法 是 正确 的 ? (选择 所 有 正确 的 答案 。) 
Ca) 最 短 〈 即 长 度 最 小 ) 的 s-t 路 径 可 能 多 达 n-1 条 边 ， 其 中 必 是 顶点 的 数量 。 





(b) 最 短 的 s-t 路 径 中 不 存在 重复 的 顶点 〈 即 没有 循环 )。 





y 


(c) 最 短 的 s-t 路 径 必定 包含 G 中 长 度 最 短 的 边 。 


(d) 最 短 的 s-t 路 径 必定 排除 了 G 中 长 度 最 长 的 边 。 


问题 3.2 








考虑 一 个 有 向 图 G， 它 有 一 个 起 始 顶 点 s 和 一 个 目标 顶点 t，3 

















3.6” 章 末 习 题 





且 所 有 边 的 长 度 均 为 非 负 值 。 在 下 面 哪 个 条 件 下 ， 可 以 保证 最 短 的 s-t 路 径 是 





唯一 的 ? 











(a) 所 有 边 的 长 度 都 是 各 不 相同 的 正 整 数 。 
(b) 所 有 边 的 长 度 都 是 2 的 不 同 平方 数 。 


(c) 所 有 边 的 长 度 都 是 


























(d) 以 上 答案 都 不 正确 。 


问题 3.3 ”考虑 一 个 边 长 均 为 非 负 值 的 有 向 图 

































































工 征 


各 不 相同 的 正 整数 并 且 图 G 不 包含 有 向 环 。 


G 以 及 两 个 不 同 的 顶点 9 和。 











设 己 表示 从 s 到 上 的 一 条 最 短路 径 。 如 果 把 图 中 每 条 边 的 长 度 都 加 上 100， 那 么 : 


(选择 所 有 正确 











的 答案 。) 








(a) 已 肯定 仍然 是 最 短 的 s-t 路 径 。 























(b) 肯定 不 再 是 最 短 的 s 一 路 径 。 


(c) 尸 可 能 是 





























也 可 能 不 再 是 最 短 的 s 一 路 径 〈 取 决 于 具体 的 











区 




















)。 


(d) 如 果 忆 只 包含 一 条 边 ， 那 么 它 肯 定 仍然 是 最 短 的 s-t 路 径 。 


问题 3.4 
性 : 没有 任何 边 上 
值 )、 所 有 其 他 的 边 具 有 3 
决 单 源 最 短路 径 问 题 ? 


注 测 




















改 





(a) 是 的 ， 对 于 所 有 这 权 
(b) 不 会 ， 
(c) 可 


(d) 





考虑 一 个 有 向 图 G 以 及 它 的 一 个 起 始 顶 点 s。 这 个 
的 终点 是 起 始 顶点 s、 从 s 出 发 的 边 

















不 存在 这 样 的 输入 。 








只 





才 会 成 立 。 


乳 人 条 ， 

















E 负 的 长 度 。 在 这 种 情况 下 ，Dijkstra 入 
(选择 所 有 正确 的 答案 。) 


的 输入 都 是 成 立 的 。 

















图 具有 下 面 的 



































t 有 任意 的 长 度 〈 可 能 是 







































































法 能 否 正确 地 


也 可 能 不 行 ( 取 决 于 G 的 特定 选择 以 及 边 的 长 度 )。 
有 当 添 加 一 个 前 提 条 件 ， 也 就 是 G 不 包含 总 长 度 为 负 值 的 有 向 环 时 ， 
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问题 3.5 ”考虑 一 个 有 向 图 G 























负 的 边 但 没有 负 值 的 环 ， 意 思 是 





这 个 输入 图 运行 Dijkstra 算法 ， 下 面 的 说 法 哪些 是 正确 


答案 。) 


























以 及 一 个 起 始 顶点 s。 假 设 G 有 
G 并 不 包含 边 的 总 1 
































(选择 所 有 正确 的 

















(a) Dijkstra 的 算法 可 能 会 陷入 无 限 循环 。 





(b) 无 法 在 某 些 边 的 长 度 为 负 值 的 
且 在 有 些 情 况 下 它 所 计 











(c) Dijkstra 算法 总 是 
不 都 是 正确 的 。 











和 
冰 
所 





(d) Dijkstra 算法 总 是 会 终 1 


上 ，1 







































































是 正确 的 。 
问题 3.6 ”继续 上 面 的 问题 ， 
































算法 ， 下 面 哪些 说 法 是 正确 的 ? 























假设 输入 图 G 包含 了 一 个 总 长 度 为 负 值 的 有 向 
环 ， 同 时 存在 一 条 从 起 始 顶 点 s 到 这 个 环 的 路 径 。 假 设 在 这 个 输入 医 
(选择 所 有 正确 的 答案 。) 


























图 上 运行 Dijkstra 算法 。 
的 最 短路 径 长 度 # 


























日 在 有 些 情 况 下 它 所 计算 的 最 短路 径 长 度 总 




















(a) Dijkstra 算法 可 能 会 陷入 无 限 循 环 。 

















(b) 无 法 在 包含 总 长 度 为 负 值 的 有 向 环 的 图 上 运行 Dijkstra 算法 。 
， 但 在 有 些 情况 下 它 所 计 








(c) Dijkstra 算法 总 是 会 终止 


















































(d) Dijkstra 算法 总 是 会 终 1 























上 ， 但 在 有 些 情 况 下 它 所 计 











是 正确 的 。 


挑战 题 

















问题 3.7 ”考虑 一 个 各 边 长 度 均 为 非 负 值 的 有 向 展 


























把 路 径 的 瓶颈 定义 为 它 的 最 大 长 度 边 〈 而 不 是 边 的 长 度 之 和 )。 怎 
法 ， 来 计算 每 个 顶点 veV 的 任何 s-v 路 径 的 最 小 瓶颈 。 这 





























应 该 是 O(mn)， 其 中 m 和 分别 表 示 边 数 和 顶点 数 。 























的 最 短路 径 长 度 # 











的 最 短路 径 长 度 总 



































NY 3.6 章 未 习题 ”87 


编程 题 


问题 3.8 用 自己 比较 喜欢 的 编程 语言 实现 3.2 节 中 的 Dijkstra 算法 ， 并 用 
它 解 决 不 同 有 向 图 的 单 源 最 短路 径 问 题 。 通 过 本 章 中 的 简单 实现 ， 您 可 以 在 5 
分 钟 或 更 短 时 间 内 解决 多 么 复杂 问题 呢 ? (关于 测试 例 和 挑战 数据 集 ， 参 见 


www.algorithmsilluminated.org 。) 
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堆 数据 结构 











本 书 剩余 的 3 章 分 别 讨论 3 种 极为 重要 并 且 广 泛 使 用 的 数据 结构 : 堆 、 搜 索 
我 们 的 目标 是 了 解 这 些 数 据 结构 所 支持 的 操作 (以 及 它们 的 运行 时 


树 和 散 列 表 。 
间 ), 并 通过 应 月 
另外 ， 我 们 还 





















































日 实例 培养 读者 识别 不 同 的 数据 结构 适用 于 哪 种 类 型 问题 的 能 力 。 



































以 对 它们 的 幕后 实现 方式 有 所 了 解 。" 我 们 首先 讨论 堆 ， 这 种 数 


























据 结构 可 以 帮助 我 们 实现 最 小 值 或 最 大 值 的 快速 计算 。 

















4.1 


数据 结构 概述 


4.1.1 选择 正确 的 数据 结构 


软件 的 主要 部 分 经 常会 用 到 数据 结构 。 因 此 ， 对 于 严谨 的 程序 员 而 言 ， 知 道 


在 什么 时 候 以 及 怎样 使 
是 它 可 以 对 数据 进行 组 乡 
数据 结构 的 一 些 例 子 。2.2 节 介 


















































数据 结构 采 

















(D 有 些 程序 员 









































j 数 据 结 构 是 一 项 重要 的 基本 技巧 。 数 据 结构 的 存在 意义 
4， 使 我 们 可 以 快速 、 实 用 地 访问 数据 。 我 们 已 经 看 到 了 























绍 的 用 于 实现 线性 时 间 的 宽度 优先 的 搜索 的 队列 














1 了 线性 形式 组 织 数据 ， 可 以 实现 在 常数 级 时 间 内 从 队列 的 头 部 删 




















数据 结构 这 个 词 保留 


来 表示 具体 的 实现 ， 把 它 所 支持 的 操作 列表 称 为 抽象 数据 类 型 。 








3 4.1 数据 结构 概述 





除 对 象 或 者 在 队列 的 尾部 添加 对 象 。2.4 节 介 绍 了 在 深度 优先 的 搜索 的 迭代 性 实 
现 中 起 到 重要 作用 的 堆栈 数据 结构 ， 它 允许 我 们 在 常数 级 时 间 内 在 堆栈 的 头 部 
添加 或 删除 对 象 。 

我 们 可 以 使 用 的 数据 结构 还 有 很 多 。 在 本 系列 图 书 中 ,我 们 将 看 到 堆 、 二 又 
搜索 树 、 散 列表 、 布 隆 过 滤器 以 及 并 查 集 (union-find， 详 见 本 系列 图 书 的 卷 3 )。 
为 什么 要 描述 这 几 个 看 上 去 颇 为 复杂 的 例子 呢 ? 因 为 不 同 的 数据 结构 支持 不 同 
的 操作 集合， 所 以 它们 适用 于 不 同类 型 的 编程 任务 。 例 如 ， 宽 度 优先 的 搜索 和 深 
度 优先 的 搜索 具有 不 同 的 需求 ， 分 别 由 两 种 不 同 的 数据 结构 满足 。Dijkstra 最 短 
路 径 算 法 的 快速 实现 〈 见 4.4 节 ) 还 有 一 些 不 同 的 需求 ， 需 要 使 用 更 为 复杂 的 堆 
数据 结构 。 

不 同 的 数据 结构 的 利弊 是 什么 ? 我 们 应 该 怎样 在 程序 中 选择 具体 的 数据 结 

构 呢 ?一 般 而 言 ， 一 种 数据 结构 所 支持 的 操作 越 多 ， 这 些 操作 的 速度 也 就 越 慢 ， 
它们 所 需要 的 空间 开销 也 就 越 大 。 爱 因 斯 坦 的 这 句 名 言 恰如其分 地 说 明了 这 一 
点 :“ 尽 可 能 让 事情 变 得 简单 ， 但 不 能 过 于 简单 。” 
在 实现 一 个 程序 时 ， 重 要 的 是 认真 考虑 它 需 要 频繁 执行 的 操作 。 例如， 我 们 
是 不 是 只 关心 一 些 对 象 是 否 存储 在 一 个 数据 结构 中 ?或 者 还 需要 以 一 种 特殊 的 
方式 对 它们 进行 排序 ? 一 旦 理解 了 程序 的 需要 , 我 们 就 可 以 遵循 精简 原则 , 选择 
一 种 支持 所 有 必要 的 操作 同时 又 没有 太 多 不 必要 操作 的 数据 结构 。 
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精简 原则 
| 选择 能 够 支持 应 用 程序 所 需要 的 所 有 操作 的 最 简单 数据 结构 。 





4.1.2 ”进入 更 高 层次 
我 们 对 数据 结构 的 理解 达到 了 什么 层次 ? 我 们 需要 达到 的 层次 是 什么 ? 
第 0 层次 :“ 数 据 结构 是 什么 ? ” 


第 0 层次 是 指 对 数据 结构 一 无 所 知 。 我 们 从 来 没有 听 说 过 数据 结构 ， 从 来 没 
有 注意 到 对 数据 进行 合理 的 组 织 能 够 大 幅度 提升 程序 的 运行 效率 。 
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第 4 章 堆 数 据 结构 上 











第 1 层次 :“ 我 听 说 过 散 列表 ， 虽 然 不 太 明 白 ， 但 感觉 它 很 强大 。 

第 1 层次 是 鸡尾酒 会 ?水 平 的 认识 度 。 在 达到 这 个 层次 后 ， 我 们 至 少 讨论 过 
基本 的 数据 结构 。 我 们 听 说 过 一 些 像 搜索 树 和 散 列表 这 样 的 基本 数据 结构 ,或 许 
还 注意 到 它们 所 支持 的 一 些 操作 。 但 是 , 在 程序 中 使 用 它们 或 者 在 技术 面试 中 熟 
练 分 析 它们 仍然 非常 困难 。 

第 2 层次 :“ 这 个 问题 看 来 需要 用 堆 才 能 搞定 。” 

在 进入 第 2 层次 后 , 我 们 开始 进入 状态 。 我 们 已 经 熟练 地 掌握 了 数据 结构 的 
基础 知识 , 可 以 在 程序 中 熟练 地 使 用 各 种 数据 结构 ， 并 能 够 对 哪 种 类 型 的 数据 结 
构 适 用 于 哪 种 类 型 的 编程 任务 做 出 准确 的 判断 。 

第 3 层次 :“ 我 只 用 自己 手工 定制 的 数据 结构 。” 

第 3 层次 是 最 高 级 的 层次 , 适合 专家 级 程序 员 和 计算 机 科学 家 , 他 们 已 经 不 
满足 仅仅 以 客户 的 身份 使 用 现 有 的 数据 结构 的 实现 。 在 进入 这 个 层次 之 后 , 我 们 
对 基本 数据 结构 的 所 有 细节 了 如 指 掌 ， 对 它们 的 实现 方式 也 非常 熟悉 。 

最 大 的 提升 空间 就 是 提升 到 第 2 层次 。 大 多 数 程序 员 总 会 在 某 个 时 刻 需 要 以 
客户 的 身份 使 用 基本 的 数据 结构 ， 如 堆 、 搜 索 树 和 散 列 表 。 本 系列 图 书卷 1 第 4 
章 至 卷 2 第 6 章 的 主要 目标 是 帮助 读者 把 数据 结构 的 理解 能 力 提升 到 这 个 层次 ， 
省 把 注意 力 集中 在 它们 所 支持 的 操作 以 及 它们 的 标准 应 用 上 。 大 多 数 现代 编程 语 
言 的 标准 库 提供 了 这 些 数据 结构 ， 我 们 可 以 在 程序 中 便捷 地 使 用 它们 。 

高 级 程序 员 有 时 候 需要 从 头 实现 某 种 数据 结构 的 自 定义 版 本 。 第 4 一 12 章 都 
包含 一 个 关于 这 些 数据 结构 的 典型 实现 的 小 节 。 这 些小 节 适合 那些 希望 把 自己 对 
数据 结构 的 理解 提升 到 第 3 层次 的 读者 。 




























































































































































































































































































































































































































































































4.2 扒 所 支持 的 操作 











二 








E 这 种 数据 结构 能 够 追踪 一 个 不 断 变化 的 含 刍 对 象 的 集合 , 可 以 快速 识别 具 



































(D 这 里 所 说 的 鸡尾酒 会 指 的 是 那 种 足够 书 采 子 气 的 酒会 。 























4.2 扒 所 支持 的 操作 























有 最 小 键 值 的 对 象 。 “例如 ， 堆 中 的 对 象 可 能 对 应 于 员工 记录 ， 键 等 于 员工 的 身 
份 证 号 码 。 堆 中 的 对 象 也 可 能 是 一 个 图 中 的 边 ， 键 对 应 于 边 的 长 度 。 或 者 ， 堆 中 
的 对 象 也 可 能 对 应 于 未 来 的 事件 调度 ， 每 个 键 表示 该 事件 将 发 生 的 时 间 。? 


















































4.2.1 Insert 和 ExtractMin 











对 于 数据 结构 而 言 ,最 重要 的 就 是 它们 所 支持 的 操作 以 及 每 种 操作 所 需要 的 
运行 时 间 。 堆 支持 的 两 个 最 重要 的 操作 是 Insert〔 插 入 ) 和 ExtractMin〔 提 取 最 
小 值 )。” 


























堆 : 基本 操作 
Insert: 对 于 一 个 堆 甩 和 一 个 新 对 蔓 xX， 把 x 添加 到 万 中 . 


ExtractMin: 对 于 一 个 堆 厂 ,从 万 中 删除 并 返回 具有 最 小 键 值 的 对 菏 (或 指向 
这 个 对 象 的 指针 )。 




















例如 ， 如 果 我 们 4 次 调用 Insert， 把 键 值 为 12、7、29 和 15 的 对 象 添 加 到 一 
个 空 堆 中 ，ExtractMin 操作 将 返回 键 值 为 7 的 那个 对 象 。 键 并 不 一 定 是 各 不 相同 
的 。 如 果 堆 中 不 止 一 个 对 象 具 有 同一 个 最 小 刍 值 , 那么 ExtractMin 将 返回 这 些 对 
象 中 的 任意 一 个 。 


如 果 只 文 持 Insert 操作， 那么 是 非常 容易 的 ， 只 要 反复 把 新 对 象 添 加 到 数组 
或 链表 的 尾部 就 可 以 在 常数 级 时 间 内 )。 关 键 在 于 ExtractMin 需要 对 所 有 对 象 
进行 一 次 线性 时 间 的 穷 举 搜索 。 如 果 只 需要 文 持 ExtractMin， 那 么 也 是 非常 明确 
的 , 只 要 在 一 开始 把 包含 n 个 对 象 的 初始 集合 按键 值 以 从 小 到 大 的 顺序 进行 一 次 
排序 (需要 O(n log n) 的 预 处 理 时 间 ), 然后 对 ExtractMin 的 所 有 后 续 调用 就 是 从 
这 个 有 序列 表 的 头 部 提取 一 个 对 象 〈 每 次 只 需要 常数 级 的 时 间 )。 现 在 的 问题 在 
于 Insert 的 任何 简单 实现 都 需要 线性 时 间 (很 容易 进行 验证 )。 这 个 问题 的 解决 
方案 是 设计 一 种 数据 结构 ， 能 够 让 这 两 种 操作 都 快速 执行 ， 这 也 是 堆 的 存在 意义 。 






























































































































































































































































@ 不 要 与 内 存 中 的 堆 混 淆 ， 内 存 中 的 堆 是 程序 为 动态 分 配 所 保留 的 内 存 区 域 。 
@ ， 键 一 般 是 数值 ， 但 也 可 以 是 任何 完全 有 序 的 集合 ， 关 键 在 于 每 一 对 不 同 的 键 都 可 以 区 分 大 小 。 
@) 文 持 这 两 个 操作 的 数据 结构 又 称 优先 队列 。 
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第 4 章 堆 数 据 结构 上 





< 








全 的 标准 实现 类似 4.5 节 所 设计 的 ) 提供 了 下 面 的 保证 。 


定理 4.1〈 堆 的 基本 操作 的 运行 时 间 ) ”在 一 个 包含 n 个 对 象 的 堆 中 ，Insert 
和 ExtractMin 操作 的 运行 时 间 是 O(log n)。 


作为 额外 的 奖励 ， 在 堆 的 典型 实现 中 ， 大 0 表示 法 所 隐藏 的 常量 因子 是 非 
常 小 的 ， 并 且 它 几乎 不 需要 任何 额外 的 空间 。 
堆 还 有 一 种 支持 在 O(log nn) 时间 内 执行 Insert 和 ExtractMax 操作 的 变型 ， 其 
中 表示 堆 中 对 象 的 数量 。 实现 这 种 变型 的 一 种 方法 是 在 4.5 节 的 实现 中 切换 所 
有 不 等 号 的 方向 。 另 一 种 方法 是 使 用 标准 的 堆 , 但 是 在 插入 对 象 之 前 把 它 的 值 取 
反 《〈 这 样 就 有 效 地 把 ExtractMin 转换 为 ExtractMax)。 扒 的 任何 变型 都 不 支持 同 


时 在 O(log n) 时 间 内 实现 ExtractMin 和 ExtractMax 操作 , 我 们 必须 在 两 个 之 间 选 
择 一 个 。” 




























































































































































































4.2.2 ”其 他 操作 


堆 还 支持 其 他 一 些 相 对 不 太 重 要 的 操作 。 
































堆 : 其 他 操作 
FindMin: 对 于 一 个 堆 有 万 ， 返 回 具 有 最 小 键 值 的 对 象 ( 或 一 个 指向 它 的 指针 ). 
Heapify: 根据 对 象 x1，…，xn， 创 建 一 个 包含 这 些 对 象 的 堆 。 
Delete: 对 于 一 个 堆 甩 和 一 个 指向 堆 中 一 个 对 象 x 的 指针 ， 从 万 中 删除 x。 

















我 们 可 以 调用 ExtractMin, 然后 用 Insert 搬入 它 的 返回 结果 来 模拟 FindMin 
操作 ， 这 个 操作 序列 的 运行 时 间 是 O(log n)( 根 据 定 理 4.1)， 但 是 典型 的 堆 实 
现 可 以 避免 这 种 迁 回 的 解决 方案 ， 堆 实现 支持 直接 在 0(1) 时 间 内 完成 FindMin 
操作 。 我 们 可 以 通过 把 n 个 对 象 逐个 插入 到 一 个 空 堆 中 来 实现 Heapify (根据 
定理 4.1， 总 运行 时 间 为 O(n log n))， 但 是 有 一 种 更 取 巧 的 方法 可 以 一 次 性 地 
把 n 个 对 象 插 入 到 一 个 空 堆 中 ， 并 且 总 运行 时 间 为 O(n)。 最 后 ， 堆 还 可 以 支持 








































































































































































































(D 如 果 同 时 需要 这 两 个 操作 ,那么 可 以 每 种 类 型 的 堆 各 使 用 一 个 (参见 4.3.3 节 ), 或 者 升级 为 平衡 二 叉 
搜索 树 (参见 第 5 章 )。 
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在 O(log nn) 时 间 内 实现 任意 对 象 的 删除 ， 而 不 仅仅 是 删除 具有 最 小 键 值 的 对 象 
《参见 本 章 章 末 习题 的 编程 题 中 的 问题 4.8)。 


定理 4.2( 堆 的 其 他 操作 的 运行 时 间 ) ”在 一 个 包含 个 对 象 的 堆 中 , FindMin、 
Heapify 和 Delete 操作 的 运行 时 间 分 别 是 0(1)、0O(n) 和 O(log n)。 


表 4.1 是 堆 的 各 种 操作 的 最 终 成 绩 表 。 
表 4.1 堆 所 支持 的 操作 以 及 它们 的 运行 时 间 




































































操作 运行 时 间 
Insert O(log n) 
ExtractMin O(log n) 
FindMin 0O(1) 
Heapify O(n) 
Delete O(log n) 














注 : n 表示 堆 中 存储 的 对 象 数 量 。 




















什么 时 候 使 用 堆 


如 果 应 用 程序 需要 对 一 个 动态 变化 的 对 象 集合 进行 快速 的 最 小 值 (或 最 大 值 ) 
计算 ， 此 时 堆 往 往 就 是 适用 的 数据 结构 。 





4.3 堆 的 应 用 




















接 下 来 我 们 将 观察 一 些 应 用 实例 ， 感 受 堆 适用 于 哪些 场合 。 这 些 应 用 的 共 
同 主题 是 最 小 值 计算 的 替换 ， 把 使 用 穷 举 搜索 〈 线 性 时 间 ) 的 原始 实现 蔡 换 为 
堆 的 一 些 ExtractMin 操作 序列 (对 数 时 间 )。 当 我 们 看 到 一 种 算法 或 一 个 程序 
需要 大 量 的 穷 举 式 最 小 值 或 最 大 值 计 算 时 ， 应 该 立即 产生 这 样 的 想法 : 此 处 适 
合 使 用 堆 ! 


4.3.1 应 用 : 排序 
在 第 一 项 应 用 中 ， 我 们 回 到 所 有 计算 问题 的 根源 : 排序 。 
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第 4 章 堆 数据 结构 上 





问题 : 排序 
输入 : 一 个 包含 n 个 以 任意 顺序 出 现 的 数 的 数组 。 
输出 : 一 个 数组 ， 它 所 包含 的 数 与 输入 数组 相同 ,但 这 些 数 已 经 从 小 到 大 
排序 。 


例如 ,假设 输入 数组 是 : 


5|4111817|2|6|3| 


我 们 希望 得 到 的 输出 数组 是 : 


了 112131415|6|718， 


最 简单 的 排序 算法 也 许 是 SelectionSort。 这 种 算法 对 输入 数组 执行 线性 时 间 
的 搜索 ， 找 到 最 小 元 素 并 把 它 与 数组 的 第 1 个 元 素 进行 交换 ， 然 后 对 剩余 的 一 1 
个 元 素 执行 第 2 遍 扫描 ， 找 到 原 数组 中 第 2 小 的 元 素 并 把 它 与 第 2 个 元 素 进 行 
交换 ， 以 此 类 推 。 每 次 扫描 所 需要 的 时 间 与 剩余 元 素 的 数量 成 正比 ， 因 此 它 
的 整体 运行 时 间 是 @(> 让 = Bl )。" 由 于 SelectionSort 的 每 次 迭代 采用 穷 举 
法 计算 最 小 元 素 ， 因此 它 适合 使 用 堆 ! 思路 非常 简单 : 把 输入 数组 中 的 所 有 元 素 
插入 到 一 个 堆 , 然后 连续 执行 提取 最 小 元 素 的 操作 生成 输出 数组 。 第 1 次 提取 堆 
中 的 最 小 元 素 , 第 2 次 提取 堆 中 剩余 元 素 中 最 小 的 那个 (所 有 元 素 中 第 2 小 的 )， 
以 此 类 推 。 




































































































































































































































































HeapSort 
输入 : 包含 于 个 不 同 整数 的 数组 4。 
输出 : 包含 同一 些 整 数 的 数组 ， 这 些 整 数 已 经 从 小 到 大 排序 。 








@ > i 的 求 和 结果 最 大 是 w (具有 n 个 元 素 ， 每 个 最 大 为 n)， 最 小 是 nV4 (具有 n/2 个 元 素 ， 每 个 至 


少 为 n/2)。 














YN 4.3 堆 的 应 用 


五 := 空 堆 
for TI = 1 tondo 
把 2[i] 插 入 到 五 
for i=1 ton do 
B[i] := 对 卫 执 行 ExtractMin 操作 








小 测验 4.1 
HeapSort 的 运行 时 间 是 多 少 ? 用 输入 数组 长 度 严 的 函数 表示 。 
(a) On) 
(b) O(n logn) 
(c) On’) 
(d) O(n’ logn) 
(正确 答案 和 详细 解释 如 下 。) 











正确 答案 : (b)。HeapSort 完成 的 工作 可 以 归结 为 在 一 个 最 多 包含 n 个 对 象 
的 堆 上 执行 22 个 操作 。"” 由 于 定理 4.1 保证 了 每 个 堆 操作 需要 O(log n) 的 时 间 ， 
因此 它 的 整体 运行 时 间 是 O(n log n)。 

定理 4.3(HeapSort 的 运行 时 间 ) ”对 于 每 个 长 度 n 宇 1 的 输入 数组 , HeapSort 
的 运行 时 间 是 O(n log n)。 

让 我 们 回 过 头 来 看 一 下 刚刚 发 生 的 事情 。 我 们 以 一 种 可 能 是 最 缺乏 想象 力 
的 排序 算法 〈 平 方 级 运行 时 间 的 SelectionSort) 作为 起 点 。 我 们 认识 到 它 所 采 
取 的 是 反复 计算 最 小 值 的 模式 ， 并 在 一 个 堆 数据 结构 中 执行 交换 ， 然 后 神奇 地 
诞生 了 一 种 运行 时 间 为 O(n log n) 的 排序 算法 。*“ 对 于 排序 算法 而 言 ， 这 是 非常 
优秀 的 运行 时 间 。 与 其 他 基于 比较 的 排序 算法 相 比 ， 它 在 常数 因子 方面 也 是 非常 





































































































































































































QD 一 种 更 好 的 实现 是 把 第 一 个 循环 替换 为 单个 Heapify 操作 ， 它 的 运行 时 间 为 O0D)。 但 是 ， 第 二 个 循环 
仍然 需要 O(n log n) 的 运行 时 间 。 

@ 清晰 起 见 ， 我 们 在 描述 HeapSort 时 使 用 了 独立 的 输入 数组 和 输出 数组 ， 但 它 也 可 以 实现 原 地 排序 ， 
几乎 不 需要 额外 的 内 存 ， 这 种 原 地 实现 是 一 种 超级 实用 的 算法 ， 在 大 多 数 应 用 中 几乎 可 以 达到 与 


QuickSort 相同 的 速度 。 
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第 4 章 堆 数 


优秀 的 。? 这 
于 对 数 的 运行 时 间 同 时 实现 Insert 和 ExtractMin 操作 : 如 果 存 在 这 
将 产生 优 于 O(n log n) 时 间 的 基于 比较 的 排序 算法 ， 但 我 们 知道 这 





居 结 构 








个 过 程 的 一 


[4 





























个 副 效应 ， 就 是 证 明了 我 们 无 法 采用 基于 比较 的 方式 以 优 


样 的 解决 方案 ， 





























4.3.2 应 用 : 事件 管理 器 





下 , 我 们 的 任务 是 编写 一 个 软件 


























虽然 我 们 讨论 的 第 二 个 应 用 有 些 简 单 , 但 它 非常 经 典 而 且 极 为 实 月 
来 实现 对 现实 世界 的 模拟 。 例 如 ,我 们 可 能 正在 














量 
是 不 可 能 贡 












































率 投篮 、 篮 球 因此 击 9 
另 一 名 玩家 实施 了 推 人 犯规 等 。 





Se Sh se 























的 时 间 集 











用 堆 ! 如 果 寻 




















件 





合 反复 执行 取 最 小 值 的 操作 , 因此 我 们 立刻 就 会 想到 : 这 
存储 在 一 个 堆 中 ,它们 的 键 等 于 其 调度 时 间 ， 则 ExtractMin 操作 
可 以 在 对 数 时 间 内 切换 到 将 要 处 理 的 下 一 个 事件 。 当 新 事件 发 4 
插入 到 堆 





















































Ph (同样 在 对 数 时 间 内 )。 





4.3.3 ”应 用 : 中 位 值 维护 























(D 在 本 系列 


堆 的 下 
个 依次 出 现 的 数字 序列 。 
数字 时 ， 我 们 要 负责 











输入 数组 ， 
提 条 件 , 就 是 





绝 不 会 








用 到 目前 为 止 所 有 数字 的 中 位 元 素 作为 回 








个 应 用 不 是 显而易见 的 , 它 就 是 中 位 值 维护 问题 














这 个 问题 应 该 使 





昌 。 想象 一 


开发 一 个 篮球 视频 游戏 。 为 了 实现 这 种 模拟 , 我 们 必须 记录 不 同 的 事件 以 及 它们 
应 该 在 什么 时 候 发 生 一 一 这 样 的 事件 包括 一 名 玩家 在 某 个 特定 角 
H 篮 圈 外 侧 、 两 名 玩家 同时 争 抢 篮板 球 以 及 其 中 一 名 玩家 对 


度 下 以 某 个 速 


Tt 





E 时 ,可 以 把 它们 


。 在 我 们 面前 有 一 

















简单 起 见 ,假设 它们 是 各 不 相同 的 。 在 每 次 接收 一 个 






































> 





所 
应 。“ 因 此 ， 在 看 








图 书卷 1 的 5.6 节 中 , 我 们 讨论 了 基于 比较 的 排序 算法 只 是 通过 成 对 元 素 之 间 的 比较 来 访问 


















































L 丐 丰 














于 基于 比较 









































接 访问 一 个 元 素 的 值 。“ 通 的 ”的 排序 算法 对 需要 排序 的 元 素 并 没有 预 设 
的 算法 ,这 方面 的 例子 包括 SelectionSort、InsertionSort、HeapSort 和 QuickSort。 














二 


不 属于 基于 比较 的 排序 例子 包括 BucketSort、CountingSort 和 RadixSort。 本 系列 图 书卷 1 的 定理 5.5 
明确 表示 没有 一 种 基于 上 


























@ 记 住 ， 





个 数 5 


集合 的 











素 是 第 个 统计 顺序 (有 
为 是 中 位 元 素 。 























较 的 排序 算法 的 最 坏 情况 渐 ; 


I 























性 运行 时 间 能 够 优 于 B@(n log n)。 
Pp 位 元 素 是 指 它 的 “中 间 元 素 ”。 在 一 个 长 度 为 奇数 2k 一 1 的 数组 中 ， 中 位 元 
第 小 的 元 素 )。 在 长 度 为 偶数 2k 的 数组 中 ， 统 计 顺 序 k 和 k + 1 都 可 以 认 











到 前 11 个 数字 之 后 , 我 们 应 该 用 目前 第 6 小 的 数字 作出 回应 ,在 12 个 数字 之 后 ， 





YN 4.3 堆 的 应 用 




















用 第 6 小 或 第 7 小 的 数字 回应 。 在 第 13 个 数字 之 后 ， 用 第 7 小 的 数字 回应 。 接 





下 来 的 以 此 类 推 。 



































这 个 问题 的 一 种 解决 方法 有 点 用 力 过 独 , 因为 它 在 每 次 迭代 时 从 头 开始 计算 
中 位 元 素 。 我 们 在 本 系列 图 书卷 1 的 第 6 章 看 到 过 如 何在 O(n) 的 时 间 内 计算 一 
个 长 度 为 n 的 数组 的 中 位 元 素 , 因此 这 种 解决 方案 的 每 个 回合 i 需要 0() 的 时 间 。 
另外 , 我 们 也 可 以 在 一 个 有 序数 组 中 保存 到 目前 为 止 的 元 素 , 这 样 就 可 以 在 常数 


时 







































































间 内 计算 出 中 位 元 素 。 这 种 方法 的 缺点 是 在 接收 一 个 新 数字 时 对 排序 数组 进行 











更 新 需要 线性 时 间 。 我 们 能 不 能 做 得 更 好 ? 使 用 堆 , 我 们 可 以 在 每 个 回合 以 对 数 
时 间 解 决 中 位 值 维护 问题 。 现 在 ,我 建议 读者 把 书 放下 ， 花 几 分 钟 时 间 思 考 怎 样 

















用 堆 解 决 这 个 问题 。 

































































关键 的 思路 是 维护 有 和 球 两 个 堆 并 满足 两 个 不 变性 。" 第 一 个 不 变性 是 到 





和 有 丈 是 平衡 





























的 ， 意 思 是 两 个 堆 所 包含 的 元 素数 量 相同 (如 果 元 素 总 数 为 偶数 ) 




















或 其 中 一 个 4 


储 的 元 素数 量 比 男 一 个 堆 只 多 1 个 (如 果 元 素 总 数 为 奇数 )。 第 二 个 


























不 变性 是 及 和 厂 是 有 序 的 ， 意 思 是 有 中 的 每 个 元 素 都 小 于 有 中 的 每 个 元 素 。 


例如 ， 如 果 至 
和 5， 中 位 元 
元 素 。 如 果 至 














| 目前 为 止 的 数字 是 1、2、3、4 和 5$， 则 豆 存 储 1 和 2， 且 存储 4 
素 3 可 以 存储 在 任何 一 边 ， 作 为 FH 的 最 大 元 素 或 者 作为 及 的 最 小 
| 目前 为 止 所 看 到 的 是 1、2、3、4、5 和 6， 则 前 3 个 数字 存储 在 






































卫 中 , 后 3 个 数字 存储 在 瑟 中。 的 最 大 元 素 和 太 的 最 小 元 素 都 是 中 位 元 素 。 



























































万 是 标准 的 堆 ， 支持 Insert 和 ExtractMin 操作 ,而 甸 是 4.2.1 节 所 


草 述 的 “最 大 值 ” 变 型 ， 支 持 Insert 和 ExtractMax 操作 。 按 照 这 种 方式 ， 我 们 可 


以 用 一 个 堆 操 作 提 取 中 位 元 素 ， 不 管 它 是 在 有 中 还 是 在 厂 中 。 
我 们 仍然 必须 解释 每 次 接收 一 个 新 元 素 时 如 何 更 新 有 和 尿 , 使 它们 保持 平 








衡 且 有 序 。 为 
























































了 确定 应 该 在 什么 位 置 插入 一 个 新 元 素 x, 使 两 个 堆 仍 然 保持 有 序 ， 























只 要 计算 出 有 中 的 最 大 元 素 y 和 胸中 的 最 小 元 素 z 就 足够 了 。” 如 果 x 小 于 y， 





@ 算法 的 不 变性 











是 它 的 一 个 属性 在 它 的 某 个 指定 的 执行 点 总 是 正确 的 (例如 在 每 次 循环 迭代 的 末尾 )。 








@ 这 个 操作 可 





























以 通过 提取 并 重新 插入 这 两 个 元 素 在 对 数 时 间 内 完成 。 一 种 更 好 的 解决 方案 是 使 
































FindMin 和 FindMax 操作 ， 它 们 的 运行 时 间 是 常数 级 (参见 4.2.2 节 )。 
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第 4 章 堆 数据 结构 上 











则 插入 到 肪 ; 如果 它 大 于 z， 则 插入 到 成 ; 如 果 它 位 于 两 者 之 间 ， 可 以 插入 到 
任意 一 个 堆 中 。 在 x 被 插入 之 后 ，Hl 和 太 , 是 不 是 仍然 保持 平衡 呢 ? 

是 的 , 但 是 有 一 个 例外 情况 ， 当 元 素 总 数 为 2x 时 ， 如果 x 被 插入 到 那个 更 
大 的 堆 (有 个 元 素 )， 这 个 堆 将 包含 ttl 个 元 素 ， 而 另 一 个 堆 所 包含 的 元 素 
只 有 kl1 个 (图 4.1(a))。 但 是 这 种 不 平衡 很 容易 得 到 纠正 : 提取 Hi 的 最 大 值 
或 有 的 最 小 值 (取决 于 哪个 堆 包含 更 多 的 元 素 )， 并 把 这 个 元 素 重 新 插入 到 另 
一 个 堆 〈 图 4.1(b))。 现 在 ， 这 两 个 堆 仍然 保持 有 序 〈 可 以 验证 ) 并 且 已 经 恢复 
平衡 。 这 个 解决 方案 在 每 个 回合 使 用 了 常数 级 的 堆 操 作 ， 第 i 回合 的 运行 时 间 
是 O(log i)。 



































































































































































































































[| 


























堆 H (6) 5、 堆 几 堆 凤 恢复 平衡 堆 几 
6 





(a) 插入 可 能 导致 堆 H 和 堆 帮 ,的 不 平衡 (b) 恢复 平衡 














图 4.1 当 揪 入 一 个 新 元 素 导致 堆 肪 比 丽 多 出 两 个 元 素 时， 及 中 的 
最 小 元 素 就 会 被 提取 并 重新 插入 到 Fi 以 恢复 平衡 









































4.4 Dijkstra 算法 的 提速 





















































堆 的 最 后 一 个 也 是 最 高 级 的 应 用 是 单 源 最 短路 径 问 题 的 Dijkstra 算法 (第 3 
章 ) 的 近似 线性 时 间 的 实现 。 这 个 应 用 非常 生动 地 体现 了 算法 设计 与 数据 结构 设 
计 之 间 的 互动 。 


4.4.1 为 什么 要 使 用 扒 


我 们 在 命题 3.1 中 看 到 了 Dijkstra 算法 的 简单 实现 需要 O(mn) 的 运行 时 间 ， 
其 中 m 表示 边 的 数量 , n 表示 顶点 的 数量 。 如 果 只 是 处 理 中 等 规模 的 图 (有 数 以 
千 计 的 顶点 和 边 )， 那 么 这 个 速度 已 经 足够 ,但 对 于 巨型 的 图 ， 还 是 有 点 力 不 从 
心 。 我 们 能 不 能 做 得 更 好 ? 堆 能 够 实现 具有 令 人 惊讶 的 高 速度 ,也 就 是 近似 线性 







































































































































































4.4 











Dijkstra 算法 的 提速 











时 间 的 Dijkstra 算法 。 
定理 4.4 (Dijkstra 算法 〈 基 于 堆 ) 的 运行 时 间 ) “对 于 有 向 图 G = (1)， 


起 始 顶 点 s 以 及 所 有 边 的 长 度 均 为 非 负 值 ，Dijkstra 算法 基于 + 





























的 实现 的 运行 时 

















间 是 O((m+tn)log n)， 其 中 m=|&|,，n=|V|。 


虽然 O((mi 























tn)log nn) 不 如 线性 时 间 的 搜索 











出 色 的 运行 时 








间 ， 可 以 与 更 为 H 











零 代 价 的 基本 
让 我 们 回 ， 








法 。 


忆 一 下 Dijkstra 入 






































子 集 XSF 上 


上 三 葬 fyyg 
征 马 























中 的 顶点 是 它 已 经 计生 














别 穿越 边界 的 边 中 具有 最 低 Dijkstra 得 分 的 边 。 
的 ) 从 起 始 顶点 到 v 的 最 短路 径 长 度 len(v) 加 上 这 条 i 
说 ， 主 循环 的 每 次 迭代 对 所 有 跨越 边界 的 边 进行 








经 计 和 





















































次 最 小 值 计 
































的 简单 实现 使 























] 穷 举 搜索 完成 这 个 最 小 值 计算 ,把 最 小 值 计生 

















提升 为 对 数 时 


















































间 是 堆 的 存在 理 | 
































Dijkstra 入 
4.4.2 


我 们 


法 需要 | 
计划 


应 该 在 夫 








到 扒 ! 











法 那么 快速 ， 但 仍然 是 
8 色 的 排序 算法 相提并论 , 基本 上 可 以 被 认定 为 是 


边 的 长 度 4,,。 换 句 话 














现 非常 








法 的 工作 方式 (3.2 节 )。 这 个 算法 维护 一 个 顶点 
过 最 短路 径 长 度 的 。 在 每 次 迭代 中 ， 它 识 
边 (v,w) 的 Dijkstra 得 分 是 指 (已 






































。Dijkstra 算法 


的 速度 从 线性 时 间 
， 这 时 我 们 的 大 脑 里 就 会 产生 


这 样 的 想法 : 

















E 里 存储 什么 ?它们 的 键 应 该 是 什么 ?我们 首 




















把 输入 图 








可 能 会 让 人 觉得 


中 的 边 存储 在 堆 
边 ) 蔡 换 为 ExtractMin 调用 。 


这 种 思路 是 可 行 的 , 但 是 一 种 更 ] 








E 想 到 的 是 可 以 

















中 , 然后 将 





























奇怪 ， 基 

















目标 定 为 把 简单 实现 中 的 最 小 值 计 


取 巧 和 快速 的 实现 是 把 顶点 存储 在 
为 Dijkstra 得 分 是 根据 边 而 不 是 顶点 来 定义 的 。 











(针对 

















E 中 。 这 
但 换个 














思路 ， 我们 之 所 以 关注 Dijkstra 得 分 ， 是 因为 它 可 以 指示 我 们 接 下 来 处 理 哪 个 顶 


点 。 我 们 能 不 能 通过 
具体 的 计划 是 把 尚未 处 理 的 顶点 (Dijkstra 伪 码 


一 、 





同时 维护 下 面 提 到 的 不 变性 。 























任 走 个 捷径 ， 直 接 计生 


























FP 的 天 区 存储 在 一 个 堆 中 ， 
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100 ”第 4 章 堆 数 据 结构 上 


不 变性 


顶点 we 了 XX 的 键 是 一 条 尾 顶 点 为 veX 且 头顶 点 为 w 的 边 的 最 低 Dijkstra 得 分 


(如 果 不 存在 这 样 的 边 ， 则 是 +co )。 




















也 就 是 说 ， 我 们 需要 下 面 的 等 式 








= i 十 
key(w) 了 ‘min len(y) 











式 (4.1) 对 于 每 个 we 人 WX 在 所 有 时 候 都 是 成 立 的 ， 其 中 len(v) 表 示 在 算法 
的 一 次 早期 迭代 中 所 计算 的 v 的 最 短路 径 的 长 度 〈 








已 处 理 


Dijkstra 得 分 





(4.1) 














图 4.2)。 


尚未 处 理 








42 ”顶点 weW 外 的 键 被 定义 为 头顶 点 为 w 上 且 





这 是 怎么 回 事 呢 ? 想象 一 下 ， 我 们 正在 使 月 
Dijkstra 得 分 的 边 (v,w)， 其 中 veEX，mw&eX。 第 一 轮 是 在 每 个 顶点 we 天 并 之 间 进 
行 的 本 地 锦标 赛 ， 参 与 者 是 边 (ww)， 其 中 ve 开 且 炎 是 边 的 头顶 点 。 第 一 轮 的 胜 
者 就 是 最 低 Dijkstra 得 分 竞赛 的 参与 者 〈 如 果 存 在 )。 第 一 轮 的 胜 者 《每 个 项 
点 we 天 X 最 多 有 1 个 胜 者 ) 继续 进行 第 二 轮 的 比赛 ， 最 终 的 冠军 就 是 第 一 轮 



























































尾 顶 点 在 乞 9 


的 边 的 最 低 Dijkstra 得 分 




















两 轮 淘汰 赛 确 定 具有 最 低 















































胜 者 中 具有 最 低 Dijkstra 得 分 的 那个 ,这 条 冠军 边 与 穷 举 搜索 所 确认 的 边 是 同 











一 条 。 








顶点 we VX 的 键 值 ( 式 (4.1)) 就 是 w 的 本 地 锦标 赛 中 的 最 低 Dijkstra 


pA 
时 分 ， 


耳 








此 ， 我 们 的 不 变性 有 效 地 实现 了 所 有 的 第 




















轮 竞 赛 。 提 取 具 有 最 小 键 














YN 4.4 Dijkstra 算法 的 提速 


值 的 顶点 ， 然 后 开展 第 二 轮 锦标 赛 ， 闪 内 发 光 的 奖杯 的 持 有 者 正 是 下 一 个 需要 
处 理 的 顶点 , 也 就 是 跨越 边界 的 边 中 具有 最 低 Dijkstra 得 分 的 那 条 边 的 头 项 点 。 
关键 在 于 ， 只 要 我 们 维持 这 个 不 变性 ， 就 可 以 用 一 个 堆 操作 实现 Dijkstra 算法 
的 每 次 迭代 。 


它 的 伪 码 如 下 : ” 

































































Dijkstra ( 基于 堆 的 算法 ， 第 1 部 分 ) 


输入 : 用 邻接 列表 表示 的 有 向 图 G=( 人 VE)， 顶 点 seV， 对 于 每 个 eeE， 其 长 
度 4 ,之 0。 


完成 状态 : 对 于 每 个 顶点 v，len(v) 的 值 等 于 真正 的 最 短路 径 长 度 dist(s,v)。 

















初始 化 
1 X := 空 集合 := 空 堆 
2 pn ) := . 
3 for every V5 Sdo 
4 key(v) := +% 
5 for every Ve V do 
6 把 了 插入 到 日 // 或 使 用 Heapify 
// 主 循环 
7 while 万 非 空 d 
8 W* := a 
9 把 wi 加 到 XX 
10 len(w) := key (w*) 
// 对 堆 进 行 更 新 以 维持 不 变性 
11 ( 待 宣布 ) 











但 是 ， 为 了 维持 这 个 不 变性 ， 需 要 多 大 的 工作 量 呢 ? 
4.4.3 ”维持 不 变性 


现在 是 付出 “代价 ”的 时 候 了 。 我 们 享受 了 这 个 不 变性 的 成 果 , 它 把 Dijkstra 

















QD 把 已 处 理 顶 点 的 集合 蕊 初始 化 为 空 集 而 不 是 起 始 顶 点 ， 能 够 使 伪 码 更 为 清晰 《比较 3.2.1 节 )。 主 循 
环 的 第 1 次 闪 代 保证 提取 的 是 起 始 项 点 (明白 为 什么 吗 ?)， 它 也 是 随后 添加 到 承 的 第 一 个 顶点 。 
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算法 所 需要 的 每 个 最 小 计算 减少 为 一 个 堆 操作 。 作 为 交换 , 我 们 必须 解释 怎样 在 
不 付出 过 多 工作 量 的 前 提 下 维持 这 个 不 变性 。 

算法 的 每 次 迭代 把 一 个 顶点 x 从 天 碟 移 动 到 闷 从 而 改变 了 它们 之 间 的 边 
界 〈 图 4.3)。 从 扎 的 某 个 顶点 出 发 到 v 的 边 现在 完全 处 于 蕊 的 内 部 ， 不 再 跨越 
边界 。 更 成 问题 的 是 ， 从 v 到 天 蕊 的 其 他 顶点 的 边 不 再 完全 处 于 矿 X 内 部 ， 而 
是 从 跨越 到 -X。 为 什么 这 会 成 为 问题 昵 ? 因 为 我 们 的 不 变性 式 〈4.1) 表示 ， 
对 于 每 个 顶点 we 了 X,，w 的 键 等 于 一 条 终点 在 w 的 跨越 边 的 最 小 Dijkstra 得 分 。 
新 的 跨越 边 意味 着 出 现 了 最 小 Dijkstra 得 分 的 新 候选 者 ， 因 此 对 于 有 些 顶 点 w， 
式 (4.1) 的 右边 可 能 会 变 小 。 例 如 ， 当 满足 (,w)eE 的 顶点 v 第 一 次 处 于 XY 的 内 
部 时 ， 这 个 表达 式 就 从 +eo 缩 减 为 一 个 确定 的 数字 了 《〈 即 len(V)+ 4,, )。 








































































































已 处 理 尚未 处 理 已 处 理 尚未 处 理 





(a) 之 前 (b) 之 后 
图 4.3 ” 当 一 个 新 顶点 从 矿 移 动 到 对 时 ， 从 v 出 发 的 边 可 能 成 为 跨越 边界 的 边 




















每 次 当 我 们 从 堆 中 提取 一 个 顶点 w* 并 把 它 从 VV- 移动 到 承 时 , 可 能 需要 
减 小 仍然 位 于 天 和 中 的 一 些 顶 点 的 键 值 ， 以 反映 新 的 跨越 边 。 由 于 所 有 的 新 
跨越 边 都 是 从 w* 出 发 的 ， 因 此 我 们 只 需要 对 以 w* 为 起 点 的 边 进行 迭代 , 检查 边 
(w*,y) 的 顶点 ye 了 YX。 对 于 每 个 这 样 的 顶点 y， 在 y 的 本 地 锦标 赛 中 ， 第 一 轮 胜 
者 有 两 个 候选 : 要么 与 此 前 相同 ， 要 么 就 是 新 的 参赛 选手 (w*, y)。 因 此 ，y 的 新 
键 值 要 么 是 它 的 旧 值 ， 要 么 是 新 的 跨越 边 的 Dijkstra 得 分 len(w*)+《,,,, ， 以 更 小 
的 那个 为 准 。 

怎样 减 小 堆 中 一 个 对 象 的 键 值 呢 ? 一 个 简单 的 方法 是 首先 使 用 4.2.2 节 所 描 
述 的 Delete 操作 将 它 删除 ,接着 更 新 它 的 值 ， 然 后 使 用 Insert 操作 把 它 添加 回 堆 




































































































































































YN 4.4 Dijkstra 算法 的 提速 




















中 。” 这样， 我 们 就 完成 了 基于 堆 的 Dijkstra 算法 的 实现 。 




















Dijkstra ( 基于 堆 的 算法 ， 第 2 部 分 ) 
// 对 推进 行 更 新 以 维持 不 变性 
12 for 每 条 边 (w* ,y) do 
13 从 五 中 删除 y 
14 key(y) := min{ key(y), len (wr) + Cn,} 
15 把 了 插入 到 五 








4.4.4 运行 时 间 
Dijkstra 基于 堆 的 实现 的 算法 所 完成 的 几乎 所 有 工作 都 是 由 堆 操作 组 成 的 
《可 以 进行 验证 )。 每 个 堆 操作 需要 O(log n) 的 时 间 ， 其 中 表示 顶点 的 数量 堆 
中 对 象 的 数量 绝 不 可 能 超过 n-1 个 )。 
这 个 算法 所 执行 的 堆 操 作 有 多 少 个 ? 基于 堆 的 算法 第 1 部 分 的 第 6~8 行 中 
每 一 行 都 有 n 一 1 个 操作 ， 除 起 始 顶点 s 之 外 的 每 个 顶点 均 需 要 1 个 堆 操作 。 
么 基于 堆 的 算法 第 2 部 分 的 第 13 行 和 第 15 行 呢 ? 
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小 测验 4.2 
Dijkstra 将 执行 第 13 行 和 第 15 行 多 少 次 ? 选择 适用 的 最 小 边界 . ( 与 往常 一 样 ， 
n 和 m 分 别 表 示 顶 点 的 数量 和 边 的 数量 。) 
(a) O(n) 
(b) Om) 
(c) On’) 
(d) Olmn) 
(正确 答案 和 详细 解释 如 下 。) 











正确 答案 : (b)。 第 13 行 和 第 15 行 看 上 去 可 能 有 点 奇怪 。 在 主 循环 的 一 次 















































( 有 些 堆 实现 提供 了 一 个 DecreaseKey 操作 ， 对 于 包含 个 对 象 的 堆 ， 其 运行 时 间 是 O(log n)。 在 这 种 
情况 下 ， 就 只 需要 1 个 堆 操作 。 
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居 结 构 上 





和 欠 代 中 ， 这 两 行 被 执行 的 次 数 可 能 多 达 半 -1 次 ，w* 的 每 条 外 向 边 各 执行 1 次 。 


二 


一 共有 了 -1 次 达 代 ， 


上 去 




















任 操 作 的 数量 是 平方 级 的 。 









































如 此 。 但 是 








般 而 言 , 我 们 可 以 做 得 更 好 。 为 什么 ? 





候 
任 交 给 边 而 不 是 顶点 。 图 




















因为 我 们 把 这 些 堆 操作 的 








mi 
2 
2 





对 于 稠密 图 ， 情 况 确实 








才 
内 





中 的 每 条 边 (v,w) 在 第 12 行 最 多 出 现 1 次 ， 也 就 是 当 v 























第 一 次 从 堆 中 被 提取 并 从 太 转 移 到 时 。" 因 此, 第 13 行 和 第 15 行 对 于 每 条 
边 最 多 只 执行 1 次 ， 总 共 是 2m 个 操作 ， 其 中 m 是 边 的 数量 。 





小 测验 4.2 显示 了 Dijkstra 入 
个 操作 需要 O(log n) 的 时 间 。 总 





保证 的 。 
























































堆 的 实现 使 
J 时 间 是 O((m+tn) 
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为 了 使 我 们 对 堆 的 














了 Ol(m+tn) 的 堆 操 作 ， 











定理 4.4 














log n)， 这 是 日 





解 提 升 到 下 一 层次 ， 现 在 我 们 描述 怎样 从 零 开 始 实现 





堆 。 我 们 把 注意 力 集 中 在 Insert 和 ExtractMin 两 个 基本 操 
司 的 运行 效率 。 




















它们 都 能 实现 对 数 时 


4.5.1 树 形式 的 堆 
我 们 可 以 用 两 种 方法 观察 堆 中 的 对 象 ， 即 以 树 (更 适合 























和 芷 上， 并 关注 怎样 保证 





和 以 数组 的 形式 《更 适合 实现 )。 下 面 首先 讨论 树 。 
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示 和 说 明 ) 的 形式 


SN 
































































































































堆 可 以 看 成 是 一 棵 有 根 的 二 叉 树 (二叉树 的 每 个 节点 可 以 有 0 个 、1 个 或 
2 个 子 节点 )， 每 个 层 尽 可 能 完全 。 当 堆 所 存储 的 对 象 数量 比 2 的 整数 次 方 小 
1 时 ,每 一 层 都 是 完全 的 (图 4.4(a) 和 图 4.4(b))。 当 对 象 的 数量 位 于 两 个 这 样 
的 数 之 间 时 , 唯一 不 完全 的 层 是 最 后 一 层 , 子 节 点 在 这 一 层 中 从 左 向 右 展开 (〈 图 
4.4(c))。2 

堆 管 理 与 键 相关 联 的 对 象 ， 使 其 满足 下 面 的 堆 属性 。 
@ 如 果 w 此 前 已 经 被 提取 ， 那 么 边 (vw) 就 不 会 出 现 。 
@ 由 于 某 些 原因 ， 计 算 机 科学 家 在 思考 树 时 把 它 看 成 是 向 下 生长 的 形式 。 
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(a) (b) (C) 


4.4 具有 7 个 、15 个 和 9 个 节点 的 完全 二 又 树 











下 


























堆 的 属性 
每 个 对 象 x 的 键 小 于 或 等 于 它 的 子 节点 的 键 。 














重复 的 键 是 允许 存在 的 。 图 4.5 所 示 的 是 一 个 合法 的 包含 9 个 对 象 的 堆 。” 


(4) 

















A 
NU/ 交 





图 4.5 包含 9 个 对 象 的 堆 
在 每 一 对 父子 节点 中 ， 父 节点 的 键 值 小 于 或 等 于 子 节点 的 键 值 。” 


我 们 可 以 采用 不 止 1 种 方法 排列 对 象 ， 同 时 满足 堆 的 属性 。 图 4.6 所 示 的 是 
另 一 个 具有 相同 键 集合 的 堆 。 







































































QD 当 绘制 一 个 堆 时 ， 我 们 只 显示 对 象 的 键 。 不 要 忘记 堆 实 现 所 存储 的 是 对 象 〈 或 指向 对 象 的 指针 )。 每 
个 对 象 与 一 个 键 相 关联 ， 并 可 能 拥有 很 多 其 他 数据 。 

@ 按照 兴 代 的 方式 对 一 个 对 象 的 子 节 点 、 子 节点 的 子 节点 (以 此 类 推 ) 应 用 堆 的 属性 ， 表明 了 每 个 对 象 
的 键 小 于 或 等 于 它 的 直接 后 代 的 键 。 上 面 的 描述 堆 属 性 的 例子 并 没有 指定 不 同 子 树 的 键 的 相对 顺序 ， 
这 与 现实 中 的 家 庭 成 员 树 一 样 ! 
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图 4.6 男 一 个 具有 相同 键 集合 的 堆 
































两 个 堆 的 根 节点 都 是 “4”， 也 是 所 有 键 中 最 小 的 (存在 一 样 小 的 )。 这 并 不 是 
偶然 的 : 因为 当 我 们 向 上 回 询 一 个 堆 时 ， 键 值 只 会 越 来 越 小 ， 根 节点 的 键 是 能 够 找 
到 的 最 小 的 键 值 。 这 个 消息 令 人 鼓舞 , 我 们 预感 到 堆 的 最 小 值 计算 将 是 非常 高 效 的 。 


4.5.2 ”数组 形式 的 堆 


在 我 们 的 思维 中 , 堆 可 以 看 成 是 一 棵 树 。 但 是 , 在 堆 的 实现 中 ,我 们 所 使 用 
的 是 一 个 长 度 等 于 堆 预 期 存储 的 最 大 对 象 数量 的 数组 ,数组 的 第 1 个 元 素 对 应 于 
树 的 根 节点 ， 接 下 来 的 两 个 元 素 是 树 的 下 一 层 〈 按 照相 同 的 顺序 )， 接 下 来 以 此 
类 推 〈 见 图 4.7)。 
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第 0 层 第 1 层 第 2 层 第 3 层 








(a) 树 表示 形式 (b) 数组 表示 形式 
图 4.7 把 堆 的 树 表 示 形 式 映射 到 它 的 数组 表示 形式 
树 的 父子 关系 可 以 很 好 地 转换 到 数组 中 《〈 见 表 4.2)。 假 设 数组 位 置 被 标记 为 
1,2,…n， 其 中 是 对 象 的 数量 ， 位 置 i 的 对 象 的 子 节点 对 应 于 位 置 2; 和 2i+1 的 对 象 
(如 果 存 在 )。 例如 ,在 图 4.5 中 , 根 节点 (位 置 1) 的 子 节 点 是 接 下 来 的 两 个 对 象 ( 位 
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置 2 和 位 置 3)，8 (位 置 3) 的 子 节点 是 位 置 6 和 位 置 7 的 对 象 ， 
如 果 采 用 相反 的 顺序 ， 对 于 一 个 非 根 节点 (位 置 是 2), i 的 父 节点 是 位 置 | 7/12| 。 
例如 ， 在 图 4.5 中 ， 最 后 一 个 对 象 ( 位 置 9) 的 父 节点 是 位 置 | 9/2 |=4 的 对 象 。 

























































































表 4.2 堆 中 位 置 为 je{1,2,3,…, 由 的 对 象 与 它 的 父 节点 、 左 子 节点 和 右 子 节点 之 间 的 关系 













































































父 节点 的 位 置 [i/2| 〈 前 提 z2) 
左 子 节 点 的 位 置 2i (前 提 2i<n) 

右 子 节点 的 位 置 2i+t1〔 前 提 2i+1 专 n) 
注 : n 表示 堆 中 的 对 象 数 量 。 
































从 子 节 点 访问 父 节 点 以 及 从 父 节点 访问 子 节点 都 可 以 采用 如 此 简单 的 公式 ， 
AR 因此 ， 堆 数 
据 结构 具有 最 小 的 空间 开销 。” 


4.5.3 ”在 O(log 由 时 间 内 实现 Insert 操作 


我 们 将 通过 具体 的 例子 而 不 是 伪 码 来 描述 Insert 和 ExtractMin 操作 的 实现 。” 
难点 在 于 添加 或 删除 一 个 对 象 之 后 保持 树 的 完全 性 并 维护 堆 的 属性 。 我 们 将 为 这 
两 个 操作 使 用 相同 的 蓝图 ， 


。 尽 可 能 以 最 明显 的 方式 保持 树 的 完全 性 ; 
。 采用 “ 打 地 鼠 ” 的 方式 有 组 织 地 消除 任何 违反 堆 属 性 的 情况 。 


具体 地 说 ， 根 据 Insert 操作 的 定义 : 假设 有 一 个 堆 五 和 一 个 新 对 象 x， 把 x 
添加 到 五 中 。 


在 x 被 添加 到 肪 之后， 及 仍然 应 该 对 应 于 一 棵 完全 二 叉 树 (节点 数量 比 原 













































































































































































Q@ |x|] 这 种 记 法 表示 “地 板 ” 函 数 ， 它 把 参数 值 向 下 取 整 为 最 接近 的 整数 。 

@， 作 为 额外 奖励 ， 在 低层 语言 中 ， 可 以 通过 移 位 技巧 实现 极其 快速 的 乘 2 或 除 2 操作 。 

@) 形成 对 比 的 是 ， 搜 索 树 (第 5 章 ) 不 需要 是 完全 二 又 树 ， 它 们 需要 额外 的 空间 明确 存储 每 个 节点 指向 
己 的 子 节点 的 指针 。 
我 们 将 一 直 把 堆 画 成 树 的 形式 , 但 不 要 忘记 它们 是 以 数组 的 形式 存储 的 。 当 我 们 讨论 从 一 个 节点 跳 转 
到 它 的 子 节点 或 父 节 点 时 ， 实 际 上 就 是 应 用 表 4.2 的 简单 索引 公式 。 
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来 多 了 1 个 ) 并 满足 堆 属性 。 这 个 操作 应 该 需 
的 对 象 数量 。 
我 们 从 一 个 实际 例子 开始 讨论 ， 如 图 4.8 所 示 。 
[2 


要 O(log 刀 时 间 ， 其 中 守 表 示 埃 
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图 4.8 ”二叉树 示例 
当 一 个 新 对 象 被 插入 时 ， 保 持 


~ 人 一 
完全 











又 树 的 显而易见 的 方法 是 把 这 个 对 象 插 


入 到 数组 的 末尾 ， 相 当 于 塞 到 树 的 最 后 一 层 (如果 最 后 一 层 





为 一 个 新 层 的 第 1 个 节点 )。 只 要 失 




















的 实现 记录 了 对 象 的 数 








局 
L 





满 ， 这 个 对 象 就 成 
7 《这 个 很 容易 做 


转 
人 





到 )， 这 个 步骤 只 要 常数 时 间 就 可 以 完成 。 例 如 ， 如 果 把 一 个 键 值 为 7 的 对 象 插 


入 到 这 个 堆 中 ， 那 么 我 们 得 








到 的 结果 如 图 








4.9 所 示 。 
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图 4.9 插入 7 后 的 三 又 树 
这 棵 树 仍然 是 完全 三 义 树 ， 但 它 是 不 是 维护 了 堆 属 性 呢 ? 只 有 一 个 地 方 可 能 
违反 堆 属 性 ， 即 一 对 新 的 父子 节点 〈4 和 7)。 在 这 个 例子 中 ， 我 们 的 运气 不 错 ， 
这 对 新 节点 并 没有 违反 堆 属 性 。 如 果 我 们 继续 插入 一 个 键 为 10 的 对 象 ， 运 气 仍 
然 不 错 ， 其 结果 仍然 是 一 个 合法 的 堆 ， 如 图 4.10 所 示 。 








;4.5 实现 细节 








图 4.10 插入 10 后 的 二 叉 树 
但 是 ， 假 设 我 们 插入 一 个 键 为 5 的 对 象 ， 把 它 插 入 到 末尾 之 后 ， 树 变 成 图 4.11 


所 示 的 样子 。 
(8 
全。 


/< 一 违反 了 堆 属 性 ! 
(0 (Ca (7) (os) 
图 4.11 插入 5 后 的 二 又 树 
现在 我 们 就 遇 到 了 一 个 问题 : 新 的 父子 节点 对 (12 和 5) 违反 了 堆 属 性 。 遇 
到 这 种 情况 该 怎么 办 呢 ? 在 局 部 地 方 ， 我 们 至 少 可 以 通过 交换 这 对 违反 堆 属 性 的 
节点 来 修正 这 个 问题 ， 如 图 4.12 所 示 。 







































图 4.12 ”交换 后 的 二 又 树 
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这 个 操作 修正 了 这 对 违反 堆 属 性 的 节 上 点。 但是， 问题 并 没有 完全 解决 ， 因 为 
上 面 又 出 现 了 8 和 5 这 对 违反 堆 属 性 的 节点 。 因 此 ， 我 们 再 次 执行 相同 的 操作 ， 
交换 这 对 违反 堆 属 性 的 节点 并 得 到 图 4.13 所 示 的 结 

/ Re 二 
人 
ee 六 We 
GD Ge) CD (O02) 
图 4.13 再 次 交换 后 的 二 叉 树 

这 就 明确 地 修正 了 这 对 违反 堆 属 性 的 节点 。 我 们 已 经 看 到 ， 这 样 的 交换 有 可 
能 导致 违反 堆 属 性 的 情况 在 上 一 层 继续 发 生 ， 但 这 次 并 没有 发 生 ， 因 为 4 和 5 
已 经 处 于 正确 的 顺序 位 置 上 。 我 们 可 能 还 担心 这 种 交换 会 导致 违反 堆 属 性 的 情况 
在 下 一 层 发 生 。 但 这 种 情况 同样 没有 发 生 ，8 和 12 已 经 处 于 正确 的 顺序 位 置 上 。 
在 恢复 堆 属 性 之 后 ， 揪 入 就 宣告 完成 。 

一 般 而 言 ，Insert 操作 把 新 对 象 插入 到 扒 的 尾部 ， 并 反复 交换 违反 堆 属性 的 
节点 对 。" 在 任何 时 候 ， 最 多 只 有 1 对 违反 堆 属 性 的 节点 对 ， 也 就 是 新 对 象 是 子 
节点 的 情况 。 每 次 交换 会 在 树 中 把 违反 堆 属 性 的 情况 向 上 推进 一 层 。 这 个 过 程 
不 会 一 直 持 续 ， 如 果 新 对 象 变 成 了 根 节 点 ， 它 就 不 会 有 父 节点 ， 因 此 不 可 能 再 出 


现 违 反 














堆 属性 

















的 父子 节点 对 。 





QD 这 种 交换 子 程 
Heapify-Up〈 向 上 堆 化 〉 等 。 
何 时 候 都 不 可 能 出 现 新 
经 过 一 次 交换 之 
的 一 个 子 节点 (根据 
节点 仍然 不 会 违反 堆 
就 像 原先 的 堆 一 样 。 


© 





在 任 
节点 ， 


以 及 后 者 原来 











六 可 能 以 不 同 的 名 


称 出 现 ， 





包括 Bubble-Up〈 向 上 














置 泡 )、 

















对 象 与 它 的 子 节点 之 间 违 反 堆 属性 的 情况 。 一 开始 新 插入 的 


Sift-Up ( 


向 上 筛选 ) 和 


对 象 并 没有 子 

















后 ， 
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的 每 一 对 父子 
成 父子 关系 ， 





的 子 节点 就 是 与 它 完 成 交换 的 节 








从 
属性 。 











例如 ， 


属性 ， 它 的 键 值 只 





在 我 1 








可 能 更 





点 (后 者 的 键 更 大 , 不 然 
大 )。 原 先 的 堆 中 与 新 对 
门 的 例子 中 经 过 两 次 交换 之 后 ，8 和 12 了 





也 不 需要 交换 ) 


象 的 插入 无 关 
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Insert 
1. 把 新 的 对 象 放 在 堆 的 尾部 ， 并 增加 堆 的 大 小 。 
2. 反复 把 新 对 象 与 它 的 父 节 点 进行 交换 ， 直 到 恢复 了 堆 属性 















































于 堆 是 一 棵 完全 二 叉 树 ， 因 此 它 大 约 有 logzz 个 层 ， 其 中 表示 堆 中 对 象 
的 数量 。 交 换 的 次 数 最 多 就 是 层 的 数量 ， 每 次 交换 所 需要 的 工作 量 是 常数 级 的 。 
我 们 可 以 得 出 结论 ， 最 坏 情 况 下 Insert 操作 的 运行 时 间 是 O(log n)， 这 正 是 我 们 
所 希望 的 。 


4.5.4 ”在 O(log 几时 间 内 实现 ExtractMin 操作 


回顾 ExtractMin 操作 : 对 于 一 个 堆 五 从 五 删除 并 返回 具有 最 小 键 值 的 
对 象 。 
堆 的 根 节 点 保证 是 具有 最 小 键 值 的 对 象 。 困 难 之 处 是 ， 在 移 除 堆 的 根 节 点 
之 后 ， 仍 然 保 持 完 全 二 又 树 并 满足 堆 属 性 。 
我 们 仍然 采用 尽 可 能 明显 的 方式 保持 树 的 完全 性 。 与 插入 的 逆 操 作 相 似 ， 
我 们 知道 树 的 最 后 一 个 节点 肯定 去 了 某 个 地 方 。 但 是 它 应 该 去 了 哪里 昵 ? 由 于 我 
们 所 提取 的 是 根 节点 ， 因 此 用 原来 的 最 后 一 个 节点 覆盖 旧 的 根 节 点 。 例 如 ， 我 们 
从 图 4.14 所 示 的 堆 开 始 。 
















































































































































































































































































图 4.14 示例 二 叉 树 














这 个 操作 所 产生 的 树 如 图 4.15 所 示 。 
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4.15 履 盖 了 根 节 点 的 二 又 树 























好 消息 是 我 们 已 经 恢复 了 完全 二 又 树 属性 ， 坏 消息 是 超常 规 的 越级 提升 导致 
键 为 13 的 对 象 产 生 了 两 对 违反 堆 属 性 的 节点 13 和 4 以 及 13 和 8)。 我 们 需要 
通过 两 次 交换 来 修正 它们 吗 ? 

关键 的 思路 是 把 根 节点 与 较 小 的 那个 子 节点 进行 交换 ， 如 图 4.16 所 示 。 
































图 4.16 交换 节点 的 二 叉 树 


























现在 根 节点 不 再 牵涉 任何 违反 堆 属性 的 情况 , 新 的 根 节 点 小 于 它 所 蔡 换 的 节 
点 《这 也 是 我 们 进行 交换 的 原因 ) 和 另 一 个 子 节点 《因为 我 们 是 与 较 小 的 那个 子 
节点 进行 交换 )。 "违反 堆 属 性 的 情况 向 下 传递 ， 这 次 涉及 键 为 13 的 对 象 以 及 它 
的 两 个 〈 新 的 ) 子 节点 。 因 此 我 们 再 次 执行 相同 的 操作 ， 把 13 与 它 较 小 的 子 节 
点 进行 交换 ， 如 图 4.17 所 示 。 



















































































GD 如 果 把 13 与 8 进行 交换 ， 并 不 能 使 左 子 树 免 于 违反 堆 属性 (8 和 4 这 一 对 违反 了 堆 属 性 )， 同 时 还 会 
导致 “疾病 ” 草 延 到 右 子 树 (13 和 12 以 及 13 和 9 违反 了 堆 属 性 )。 
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4.17 再 次 交换 节点 的 二 叉 树 



































堆 属 性 最 终 得 到 恢复 ， 至 此 提取 操作 便 宣告 完成 。 

一 般 而 言 ，ExtractMin 操作 把 堆 的 最 后 一 个 节点 移动 到 根 节点 〈 通 过 履 盖 原 
先 的 根 节点 )， 并 反复 把 这 个 节点 与 它 的 较 小 的 子 节点 进行 交换 。 "在 任何 时 候 ， 
二 叉 树 中 最 多 出 现 两 对 违反 堆 属 性 的 节点 ， 也 就 是 以 前 的 最 后 一 个 节点 为 父 节 点 
的 那 两 对 节点 。“ 由 于 每 次 交换 使 这 个 对 象 在 树 中 向 下 移动 一 层 ， 因 此 这 个 过 程 
并 不 会 一 直 持 续 ， 当 新 对 象 属于 最 后 一 层 时 就 停止 交换 (如 果 不 能 更 早 )。 






































































































































ExtractMin 
1. 用 堆 中 的 最 后 一 个 对 象 X 履 盖 根 节点 ， 并 把 堆 的 大 小 减 1。 
2. 反复 把 x 与 它 最 小 的 子 节点 进行 交换 ， 直 到 扒 属性 得 到 恢复 。 


























交换 的 次 数 最 多 就 是 层 的 数量 ， 每 次 交换 所 需要 的 工作 量 是 常数 级 的 。 由 于 
总 共 大 约 有 log n 个 层 ， 因 此 可 以 得 出 结论 ， 最 坏 情况 下 ExtractMin 操作 的 运行 
时 间 是 O(log n)， 其 中 是 堆 中 对 象 的 数量 。 

































































QD 这 种 交换 子 程序 的 名 称 有 很 多 ， 其 中 一 种 叫 作 Bubble-Down〔 向 下 冒 泡 )。 
@ 与 之 前 最 后 一 个 节点 无 关 的 每 一 对 父子 节点 仍然 出 现在 原始 堆 中 , 并 不 会 违反 堆 属性 。 这 个 对 象 与 它 
的 父 节 点 之 间 也 不 会 违反 堆 属 性 , 因为 它 一 开始 没有 父 节 点 , 并且 它 一 直 与 具有 较 小 键 值 的 对 象 进行 
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4.6 ”本 章 要 点 


。 数据 结构 有 很 多 种 ， 每 种 都 为 一 组 不 同 的 操作 进行 了 优化 。 














。 精简 原则 建议 使 用 和 


。 如 果 我 们 的 应 用 需要 对 一 组 不 断 变化 的 对 象 
值 ) 计算 ， 通常 可 以 选择 堆 作 为 数据 结构 。 
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] 所 需要 的 所 有 操作 的 最 简单 的 数据 结构 。 
行 快速 的 最 小 值 (或 最 大 





























。 两 个 重要 的 推 操作 Insert 和 ExtractMin 的 运行 时 间 是 O(log n)， 其 中 














表示 对 象 的 数量 。 





。 推 还 支持 FindMin(O(1) 时 间 )、Delete (O(log n) 时 间 ) 和 Heapify (O(n) 








时 间 ) 操作 。 

















e。 HeapSort 算法 使 











为 O(n log n)。 









































] 堆 对 一 个 长 度 为 n 的 数组 进行 排序 ， 其 运行 时 间 




















。 堆 可 以 用 于 在 O((m+tn)log 四 时 间 内 实现 Dijkstra 的 最 短路 径 算 法 ， 其 中 











m 和 nn 分 别 表 示 图 





中 边 的 数量 和 顶点 的 数量 。 


























。 堆 可 以 看 成 是 树 的 


















































区 式 ， 但 它 是 以 数组 的 形式 实现 的 。 
。 堆 属 性 表示 堆 中 每 个 对 象 的 键 小 于 或 等 于 它 的 子 节 点 的 键 。 























。 在 实现 Insert 和 ExtractMin 操作 时 ， 我 们 用 显而易见 的 方式 保持 树 的 完 

















全 性 ， 并 有 组 织 地 解决 操作 过 程 中 所 出 现 的 违反 t 


4.7 ” 章 末 习题 























问题 4.1 在 计算 机 程 























著 的 速度 提升 ? 《选择 所 有 正确 的 答案 。) 


(a) 反复 地 查找 
































Py 





人 属性 的 问题 。 





序 中 ， 下 列 哪 种 模式 表明 使 用 堆 数 


























中 结构 可 以 实现 显 














(b) 反复 地 计算 最 小 值 
(c) 反复 地 计算 最 大 值 
(d) 上 述 选项 都 不 适合 





























YN 4.7 章 未 习题 


问题 4.2 ”假设 我 们 用 一 个 从 大 到 小 排序 的 数组 实现 了 一 个 优先 队列 的 功能 


(EB Insert 和 ExtractMin )。Insert 和 Extrac 
假设 这 个 数组 足够 大 ， 可 以 容纳 所 有 的 所 








tMin 的 最 坏 情况 运行 时 间 分 别 是 什么 ? 























(a) B(D 和 O(n) 
(b) O(n 和 O(1) 
(ce) O(log nn) 和 @() 
(d) O(n 和 O(n) 


6 入 。 


问题 4.3 ”假设 我 们 用 一 个 未 排序 的 数组 实现 了 一 个 优先 队列 的 功能 《〈 即 











Insert 和 ExtractMin)。Insert 和 ExtractMin 的 最 坏 情 况 运 行 时 间 分 别 是 什么 ? 假 
设 这 个 数组 足够 大 ， 可 以 容纳 所 有 的 插入 。 











(a) O(1) 和 O(n) 
(b) On) 和 O(1) 
(c) O(1)A O(log n) 
(d) O(n) 和 On) 














问题 4.4 ”假设 有 一 个 包含 了 n 个 对 象 的 堆 。 可 以 用 O(1) 的 Insert 和 ExtractMin 
操作 ， 以 及 0(1) 的 额外 工作 完成 下 面 的 哪些 任务 ? (选择 所 有 正确 的 答案 。) 


(a) 在 堆 中 找到 具有 第 5 小 的 键 值 的 对 象 。 
(b) 在 堆 中 找到 具有 最 大 键 值 的 对 象 。 
(c) 在 堆 中 找到 具有 中 位 键 值 的 对 象 。 





































































































(d) 上 述 任务 均 无 法 完成 。 
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挑战 题 


问题 4.$ ”继续 问题 3.7， 怎 样 修改 Dijkstra 算法 基于 堆 的 实现 以 计算 每 个 顶 
点 ve 了 的 sv 路 径 的 最 短 瓶 贷 。 这 个 算法 的 运行 时 间 应 该 是 O((m+tn)log n)， 其 
中 m 和 分别 表示 边 的 数量 和 顶点 的 数量 。 


问题 4.6 ”我 们 可 以 做 得 更 好 。 假 设 图 是 无 向 的 。 请 提供 一 种 线性 时 间 ( 即 
Olm+n) 时 间 )〉 的 算法 ， 计 算 两 个 特定 顶点 之 间 的 最 短 瓶 颈 路 径 。 


【提示 可 以 直接 使 用 本 系列 图 书 的 卷 1 中 的 线性 时 间 算 法 。 在 递归 中 ， 把 
目标 瞄准 在 线性 时 间 内 把 输入 长 度 缩小 一 半 。】 


问题 4.7 ”如果 是 有 向 图 , 情况 又 将 如 何 ? 是 否 可 以 在 小 于 O((mtn)log n) 的 时 间 
内 计算 出 两 个 特定 顶点 之 间 的 最 短 瓶颈 路 径 ? ? 


编程 题 


问题 4.8 ”用 自己 喜欢 的 编程 语言 实现 4.4 节 中 Dijkstra 算法 基于 堆 的 版 本 ， 
并 用 它 解决 不 同 有 向 图 的 单 源 最 短路 径 问题 。 使 用 这 种 基于 堆 的 实现 ， 我 们 在 5 
分 钟 内 可 以 解决 多 么 复杂 的 问题 昵 ?关于 测试 例 和 挑战 数据 集 ， 可 以 访问 
www.algorithmsilluminated.org. ) 

【提示 : 这 个 任务 需要 Delete 操作 ， 它 可 能 迫使 我 们 从 头 实现 一 个 自 定义 的 
堆 数 据 结构 。 为 了 从 堆 中 删除 一 个 特定 位 置 的 对 象 ， 可 以 沿用 Insert 和 
ExtractMin 的 高 层 方法 ， 根 据 需要 使 用 Bubble-Up 或 Bubble-Down 消除 违反 堆 
属性 的 情况 。 我 们 还 将 需要 记录 哪个 顶点 位 于 堆 中 的 哪个 位 置 ， 这 个 任务 也 许可 
以 使 用 散 列 表 〈 第 6 章 ) 完成 。】 
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(D 如 果 希 望 深入 研究 这 个 问题 ， 可 以 参考 论文 “Algorithms for Two Bottleneck Optimization Problems ”， 
作者 为 Harold N. Gabow 和 Robert E. Tarjan 〈《 算 法 期 刊 》 1988 )。 


第 5 草 © 


搜索 树 

















与 堆 相 似 , 搜索 树 也 是 一 种 存储 一 个 不 断 变化 的 与 键 相关 联 的 对 象 ( 可 能 还 
有 大 量 其 他 数据 ) 集合 的 数据 结构 。 它 维护 所 存储 的 对 象 的 整体 顺序 ， 并 支持 比 
堆 更 丰富 的 操作 集合 ， 其 代价 就 是 需要 更 多 的 额外 空间 ， 并 且 有 些 操作 的 运行 速 
度 比 推 更 慢 一 些 。 在 讨论 “为 什么 〈 应 用 )” 和 “怎么 样 〈 可 选 的 实现 细节 )” 之 
前 ， 我 们 首先 讨论 “什么 《〈 即 支持 的 操作 )”。 

































































































































































5.1 有 序数 组 


























思考 搜索 树 的 一 个 好 方法 是 把 它 看 作 有 序数 组 的 动态 版 本 ， 它 可 以 提供 有 
序数 据 可 以 提供 的 所 有 操作 ， 同 时 支持 快速 插入 和 删除 。 


5.1.1 有 序数 组 支持 的 操作 


有 序数 组 提供 了 大 量 的 实用 功能 






























































有 序数 组 支持 的 操作 
Search: 根据 一 个 键 外 返回 数据 结构 中 键 值 为 大 的 对 象 的 指针 (或 报告 不 存 
在 这 样 的 对 象 )。 


118 


第 5 章 搜索 树 上 


Min(Max): 返回 数据 结构 中 具有 最 小 键 值 (最 大 键 值 ) 的 对 象 的 指针 。 
Predecessor ( Successor ): 根据 数据 结构 中 一 个 对 象 的 指针 ， 和 返回 具有 比 它 更 
小 (更 大 ) 的 一 个 键 值 的 对 象 的 指针 。 如 果 给 定 的 对 象 已 经 是 最 小 的 (最 大 的 )， 
则 报告 “none”( 无 )。 

OutputSorted: 按照 键 值 顺序 逐个 输出 数据 结构 中 的 对 象 。 

Select: 根据 一 个 数字 i (位 于 1 和 对 象 数量 之 间 )， 返 回 数据 结构 中 具有 第 i 
小 键 值 的 对 象 的 指针 。 

Rank: 根据 一 个 键 E， 返回 数 据 结构 中 键 值 不 大 于 大 的 对 象 的 数量 。 








我 们 通过 下 面 的 示例 ， 重 温 怎 样 实现 每 个 操作 。 


3 | 6110111|17|23|30|36 


。 Search 操作 使 用 了 二 分 搜索 : 首先 检查 数组 中 间 位 置 的 对 象 是 否 具 有 我 们 
所 查找 的 键 值 。 如 果 是 ， 就 返回 这 个 对 象 。 如 果 不 是 ， 就 采用 递归 的 方 
式 进 入 左 半 部 分 (如 果 中 间 对 象 的 键 值 大 于 待 查找 的 键 值 ) 或 右 半 部 分 
(如 果 中 间 对 象 的 键 值 小 于 待 查找 的 键 值 )。” 例 如 ， 为 了 在 上 面 的 数组 
中 搜索 键 值 8， 二 分 搜索 将 执行 如 下 : 检查 第 4 个 对 象 〈 键 值 为 11); 在 
左 半 部 分 〈 键 值 为 3、6 和 10 的 对 象 ) 进行 递归 ;检查 第 2 个 对 象 〈 键 

值 为 6); 在 剩余 数组 的 右 半 部 分 〈 键 值 为 10 的 对 象 ) 进行 递归 ;结论 

是 键 值 为 8 的 对 象 的 正确 位 置 应 该 在 第 2 个 和 第 3 个 对 象 之 间 ， 并 报告 

“none”。 由 于 每 次 递归 调用 都 把 数组 的 长 度 缩减 一 半 ， 因 此 总 共 最 多 是 

log2n 个 递归 调用 , 其 中 表示 数组 的 长 度 。 由 于 每 次 递归 调用 所 执行 的 

是 常数 级 的 工作 量 ， 因 此 这 个 操作 的 运行 时 间 是 O(log n)。 

。 Min 和 Max 很 容易 在 O(D 时 间 内 实现 ， 它 们 分 别 返 回 一 个 指向 数组 第 1 
个 对 象 和 最 后 一 个 对 象 的 指针 。 


e 为 了 实现 Predecessor 或 Successor， 可 以 使 用 Search 操作 恢复 给 定 对 象 









































































































































































































































































































































(D 上 了 一 定 岁数 的 读者 应 该 还 记得 在 电话 本 中 搜索 电话 号 码 的 方法 。 如 果 读 者 以 前 没有 看 到 过 这 个 
算法 的 代码 ， 那 么 可 以 参考 自己 喜欢 的 入 门 编程 书籍 或 教程 。 
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在 有 序数 组 中 的 位 置 ， 并 分 别 返 回 这 个 对 象 的 前 一 个 位 置 或 后 一 个 位 置 
的 对 象 。 这 两 个 操作 的 速度 与 Search 一 样 快 ， 运 行 时 间 都 是 O(log n)， 
其 中 表示 数组 的 长 度 。 

。 在 有 序数 组 中 以 线性 时 间 实 现 OutputSorted 是 非常 简单 的 ;从 前 至 后 对 
数组 执行 一 遍 扫 描 ， 依 次 输出 每 个 对 象 。 

e。 Select 很 容易 在 常数 时 间 内 实现 : 对 于 给 定 的 索引 位 置 i， 返 回 数组 第 i 
个 位 置 的 对 象 。 

。 Rank 操作 类 似 于 Select 操作 的 逆 操 作 , 它 可 以 采用 与 Search 相同 的 实现 
代码 : 如 果 二 分 搜索 在 数组 的 第 i 个 位 置 找到 了 一 个 键 值 为 上 的 对 和 象 ， 
或 者 它 发 现 上 位 于 第 i 个 位 置 和 第 计 1 个 位 置 的 对 象 键 值 之 间 ， 正 确 的 
答案 就 是 i。" 


作为 总 结 ， 表 5.1 列 出 了 有 序数 组 支持 的 操作 以 及 它们 的 运行 时 间 。 


































































































































































































表 5.1 有 序数 组 支持 的 操作 以 及 它们 的 运行 时 间 





























操作 运行 时 间 
Search O(log n) 
Min O(1) 
Max 0O(1) 
Predecessor O(log n) 
Successor O(log n) 
OutputSorted O(n) 
Select 0O(1) 
Rank O(log n) 








注 : n 表示 数组 当前 所 存储 的 对 象 数量 。 


5.1.2 ”有 序数 组 不 支持 的 操作 


我 们 真 的 还 需要 更 多 的 操作 吗 ? 对 于 并 不 会 随 着 时 间 而 变化 的 静态 数据 集 ， 它 
所 支持 的 这 些 操作 已 经 足够 完整 。 但 是 ， 许 多 现实 世界 的 应 用 是 动态 的 ， 相 关 的 数 
















































































现 重 复 的 键 值 ， 需 要 做 哪些 必要 的 修 











站 








EE 复 的 键 值 。 为 了 允许 数组 中 出 





QD 简单 起 见 ， 这 个 描述 假定 不 存在 了 
改 呢 ? 
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据 集 随 着 时 间 的 推移 不 断 发 生变 化 。 例 如 ， 不 时 会 有 入 职 和 离职 的 员工 ， 存 储 员工 
记录 的 数据 结构 应 该 随时 更 新 。 由 于 这 个 原因 ， 我 们 还 关注 插入 和 删除 操作 。 



































有 序数 组 不 支持 的 操作 
Insert: 对 于 一 个 新 对 象 *， 把 x 添 加 到 数据 结构 中 。 











Delete: 对 于 一 个 键 值 扩 从 数据 结构 中 删除 具有 键 值 大 的 对 象 (如 果 存 在 ) “ 











这 两 个 操作 在 有 序数 组 中 并 不 是 无 法 实现 的 ， 但 它们 的 速度 之 慢 令 人 痛心 。 
在 插入 或 删除 一 个 元 素 的 同时 ， 维 护 有 序数 组 的 属性 在 最 坏 情况 下 需要 线性 时 





间 。 有 没有 一 种 蔡 代 的 数据 结构 能 够 提供 有 序数 组 












































级 运行 时 间 的 Insert 和 Delete 操作 呢 ? 








的 所 有 功能 , 同时 又 支持 对 数 





5.2 搜索 树 支 持 的 操作 























搜索 树 的 存在 意义 就 在 于 它 能 够 支持 有 序数 组 的 所 有 功能 , 同时 支持 插入 和 
删除 操作 。 除 OutputSorted 之 外 的 其 他 操作 的 运行 时 间 是 O(log n)， 其 中 表示 
搜索 树 中 的 对 象 数量 。OutputSorted 操作 的 运行 时 间 是 O(n)， 这 也 是 它 可 以 得 到 
为 它 必 须 输 出 n 个 对 象 )。 


的 最 佳 结 果 〈 因 















































表 5.2 是 平衡 二 又 树 与 有 序数 组 支持 的 操作 以 及 它们 的 运行 时 间 。 




















表 5.2 平衡 二 又 树 与 有 序数 组 支持 的 操作 以 及 它们 的 运行 时 间 
操作 有 序数 组 平衡 二 又 树 
Search O(log n) O(log n) 
Min 0O(1) O(log n) 
Max 0O(1) O(log n) 
Predecessor O(log n) O(log n) 























QD 敏锐 的 读者 可 能 注意 到 Delete 操作 的 规范 ( 


针 为 输入 参数 ) 不 同 。 这 是 因为 堆 并 不 支持 
( 


























易 把 指针 恢复 到 指向 一 个 特定 键 值 的 对 象 


速 搜索 。 丰 














处 键 值 为 输入 参数 ) 与 堆 的 删除 操作 (以 指向 对 象 的 指 
E 有 序数 组 (以 及 搜索 树 和 散 列 表 )〉 中 ， 很 容 
通过 Search 操作 )。 
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续 表 

操作 有 序数 组 平衡 二 叉 树 

Successor O(log n) O(log n) 

OutputSorted O(n) O(n) 

Select O(1) O(log n) 

Rank O(log n) O(log n) 

Insert O(n) O(log n) 

Delete O(n) O(log n) 




















注 : n 表示 存储 在 数据 结构 中 的 当前 对 象 数 量 。 

















重要 警告 : 表 5.2 所 示 的 运行 时 间 是 通过 平衡 二 叉 树 实现 的 ， 这 是 5.3 节 所 
划 述 的 标准 二 又 搜索 树 的 一 种 更 为 高 级 的 版 本 。 如 果 是 不 平衡 的 搜索 树 ， 就 不 能 
保证 这 些 运 行 时 间 。 
























































什么 时 候 使 用 平衡 二 叉 树 

如 果 我 们 的 应 用 需要 维护 一 个 动态 变化 的 对 象 集合 的 有 序 表 现形 式 ,那么 平衡 
搜索 树 (或 基于 此 的 数据 结构 ) 通常 就 是 我 们 应 该 选择 的 数据 结构 . 

我 们 要 记 住 精简 原则 : 选择 能 够 支持 应 用 所 需要 的 所 有 操作 的 最 简单 数据 结 
构 。 如 果 只 需要 维护 一 个 静态 数据 集 的 一 种 有 序 表 现形 式 〈 不 需要 插入 和 删除 )， 
应 该 优先 使 用 有 序数 组 而 不 是 平衡 搜索 树 ， 后 者 在 这 种 场合 显得 有 点 小 题 大 做 。 
[0 果 数据 集 是 动态 的 ,但 是 我 们 只 关注 快速 的 最 小 值 (或 最 大 值 ) 操作 ， 就 应 该 
堆 而 不 是 平衡 搜索 树 。 这 些 更 简单 的 数据 结构 的 功能 要 少 于 平衡 搜索 树 ,但 
在 它们 所 支持 的 操作 方面 ， 它 们 的 速度 越 快 《常数 级 或 对 数 级 的 运行 时 间 )、 所 
需要 的 额外 空间 也 越 少 〈 也 是 常数 级 的 )。” 
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QD 5.3 节 和 5.4 节 的 预览 :一般 而 言 ， 搜 索 树 操作 的 运行 时 间 与 树 的 高 度 成 正比 ， 意 思 是 从 树 根 到 它 的 
一 个 叶 节 点 的 最 长 距离 。 在 一 棵 具有 nn 个 节点 的 二 叉 树 中 ， 它 的 高 度 大 约 从 log2 n〔 如 果 该 树 是 完美 

平衡 的 ) 到 n-1〔 如 果 节 点 形成 一 条 单 路 径 )。 平 衡 搜 索 树 执行 适当 数量 的 额外 工作 保证 树 的 高 度 总 
是 O(log n)。 这 个 高 度 可 以 保证 表 5.2 的 运行 时 间 边 界 。 

@ 例如 ，Java 中 的 TreeMap 类 和 C++ 标准 模板 库 中 的 map 类 模板 均 建立 在 平衡 搜索 树 的 基础 之 上 。 

@) 在 自然 环境 中 观察 平衡 搜索 树 的 一 个 好 地 方 是 Linux 内 核 。 例 如， 它们 用 于 管理 进程 的 调试 ， 并 记录 

每 个 进程 的 虚拟 内 存 印 迹 。 

由 第 6 章 将 讨论 散 列 表 ， 它 所 提供 的 功能 也 要 少 一 些 ,但 在 它 所 擅长 的 领域 ， 它 表现 得 更 为 出 色 〈 对 于 
所 有 的 实际 用 途 ， 都 能 达到 常数 级 的 运行 时 间 )。 
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*5.3 ”实现 细 














本 节 提 供 了 二 又 搜索 树 〈 并 不 一 定 是 平衡 的 ) 的 : 





i 
厂 




















5.4 节 将 讨论 为 了 实现 平衡 搜索 树 所 需要 的 一 些 额外 思路 。 


5.3.1 搜索 树 的 属性 



































和 右 子 节 点 指针 。 任 一 指针 


型 实现 的 一 种 高 层 描 述 。 


在 二 又 搜索 树 中 ， 每 个 节点 对 应 于 一 个 具有 3 个 相关 联 指针 的 对 象 ( 具 有 一 个 
键 )， 这 3 个 指针 分 别 是 父 节 点 指针 、 左 子 节点 指针 
以 是 null， 表 示 不 存在 父 节 点 或 某 个 子 节 点 。 节 点 x 的 左 子 树 9 


都 可 


P 的 节点 可 以 从 x 通过 





它 的 左 子 节点 指针 到 达 。 它 的 右 子 树 也 具有 相似 的 特性 。 决 定性 的 搜索 树 属性 如 下 。” 





搜索 树 的 属性 





1.， 对 于 每 个 对 象 x，x 的 左 子 树 中 的 对 象 的 键 值 小 于 x 的 键 值 。 
2， 对 于 每 个 对 象 x， x 的 右 子 树 中 的 对 象 的 键 值 大 于 x 的 键 值 














搜索 树 的 属性 对 搜索 树 的 每 个 节点 都 施加 了 一 个 要 求 ， 而 不 仅仅 是 针对 根 节 点 ， 


如 图 5.1 所 示 。 





所 有 小 于 x 的 键 


























@ 节点 和 对 应 的 对 象 可 以 互 换 表示 。 
@ 这 里 假设 不 存在 两 个 对 象 具有 相同 键 的 情况 。 为 了 允许 出 现 
改 为 “小 于 或 等 于 ”。 











图 5.1 搜索 树 的 节点 要 求 





EE 复 的 键 ， 可 以 把 第 一 个 条 件 的 “小 于 ” 





YN “5.3 实现 细节 














例如 ， 图 5.2 (a) 是 一 棵 包含 键 {1,2,3,4,5} 的 搜索 树 ， 图 5.2 〈b) 所 示 的 表 








列 出 了 每 个 节点 的 3 个 指针 的 目标 。 














(a) 搜索 树 (b) 指针 








图 5.2 ”一 棵 搜索 树 以 及 它 对 应 的 父 节点 和 子 节 点 指针 


























二 又 搜索 树 和 堆 在 几 个 方面 存在 区 别 。 堆 可 以 被 看 成 是 树 , 但 它 是 以 数组 的 
形式 实现 的 ， 对 象 之 间 并 没有 明确 的 指针 。 搜 索 树 中 的 每 个 对 象 存 储 3 个 指针 ， 
因此 需要 使 用 更 多 的 空间 (常数 因子 级 的 )。 


堆 并 不 需要 明确 的 指针 , 因为 它们 总 是 对 应 于 完全 二 又 树 ， 而 二 又 搜索 树 可 
以 是 任意 的 二 又 树 结构 。 


搜索 树 的 用 途 与 堆 不 同 。 由 于 这 个 原因 , 搜索 树 的 属性 与 堆 的 属性 并 不 具有 
可 比 性 。 堆 为 快速 的 最 小 值 计 算 进 行 了 优化 ,因此 堆 的 属性 〈 子 节点 的 键 只 可 能 
大 于 它 的 父 节 点 的 键 )》 使 得 确定 具有 最 小 键 值 的 对 象 变 得 非常 容易 《〈 它 是 根 节 
点 )。 搜 索 树 为 搜索 进行 了 优化 ， 搜 索 树 的 属性 也 根据 这 个 目的 进行 了 定义 。 例 
如 ， 如 果 我 们 在 一 棵 搜索 树 中 搜索 具有 键 值 23 的 对 象 ， 并 且 这 棵 树 的 根 节点 的 
键 是 17， 就 会 知道 这 个 对 象 只 可 能 出 现在 根 节点 的 右 子 树 ， 因 此 不 需要 考虑 它 
， 这 就 让 我 们 想到 了 二 分 搜索 , 它 是 一 种 适合 模拟 动态 变化 的 有 序数 组 
的 数据 结构 。 


5.3.2 ”搜索 树 的 高 度 


对 于 一 组 特定 的 键 ， 存 在 许多 不 同 的 搜索 树 。 键 为 {1,2,3,4,5} 的 对 象 集合 的 
另 一 棵 搜索 树 如 图 5.3 所 示 。 
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与 前 面 那 棵 搜索 树 相 比 ， 图 5.3 所 示 的 子 树 也 满足 搜索 树 的 属性 ， 





















































图 5.3 ”没有 任何 非 空 的 右 子 树 



































得 有 点 过 于 笔直 (没有 任何 非 空 的 右 子 树 )。 








树 的 高 度 被 定义 为 从 树 根 到 一 片 叶 子 的 最 长 路 径 的 长 度 。" 包 含 相 

















只 不 过 显 


同 对 象 集 


合 的 不 同 搜索 树 可 以 具有 不 同 的 高 度 ， 就 像 前 面 的 两 个 例子 一 样 〈 高 度 分 别 为 2 


和 4)。 





索 树 








一 般 而 言 》 




















包含 n 个 对 象 的 二 又 搜索 树 的 高 度 是 从 logzn 到 nn- 
是 完全 平衡 二 又 树 的 最 佳 情 况 ，n-1 是 最 坏 情 况 。 


























1。 logn 





本 节 的 剩余 部 分 规划 了 如 何在 与 树 的 高 度 成 正比 的 运行 时 间 内 实现 二 叉 搜 





的 所 有 操作 〈 除 OutputSorted 之 外 ， 它 的 运行 时 间 与 n 成 正比 )。 





了 优化 保证 高 度 为 O(log n) 的 搜索 树 (参见 5.4 节 )， 它 可 以 实现 表 5.2 














绩 和 证 








所 报告 的 运行 时 间 。 


5.3.3 在 OO( 高 度 ) 时 间 内 实现 Search 


我 们 首先 从 Search 操作 开始 : 对 于 一 个 键 态 返回 数据 结构 中 键 值 






































象 的 指针 或 者 报告 不 存在 这 样 的 对 象 )。 


搜索 树 














大 了 
搜索 ， 我 介 


需要 寻 





) 树 村 








的 属 和 





的 键 ， 


] 可 以 根据 常识 来 进行 : 从 树 根 开始 ， 并 反复 地 向 左 或 向 右 ， 
找 的 对 象 ( 成 功 的 搜索 ) 或 遇 到 一 个 null 指针 (不 成 功 的 搜索 )。 



































(D 又 称 树 的 深度 。 





准确 地 告诉 我 们 在 哪里 寻找 键 值 为 上 的 对 象 。 如 果 天 
那么 这 个 对 象 必然 位 于 树 根 的 左 子 树 〈 或 右 子 树 )。 
















































































对 于 进行 
所 示 的 成 


为 大 的 对 


小 于 (或 
为 了 进行 
直到 找到 


YN “5.3 实现 细节 








例如 ， 假 设 我 们 在 第 一 棵 二 又 搜索 树 中 搜索 一 个 键 值 为 2 的 对 象 ， 
所 示 。 





二 | SN /4 
图 5.4 二 又 搜索 树 示例 





















































由 于 树 根 的 键 (3〉 太 大 ， 因 此 第 一 步 就 是 遍历 左 子 树 指针 。1 
节点 的 键 太 小 〈1)， 因 此 第 2 步 就 对 右 子 树 指 针 进 行 遍历 ， 到 达 需 要 
象 。 如 果 我 们 搜索 一 个 键 值 为 6 的 对 象 ， 搜 索 首 先 对 树 根 的 右 子 树 指 












































如 图 5.4 














于 下 二 
寻找 的 对 
针 进 行 遍 





历 〈 因 为 树 根 的 键 太 小 )。 由 于 下 一 个 节点 的 键 (5) 仍然 太 小 ， 因 此 搜索 仍然 



































成 功 )。 
Search 


1. 从 根 节 点 开始 。 


历 左 子 树 ; 如 果 大 大 于 当前 节点 的 键 ， 就 遍历 右 子 树 )。 
3. 返回 一 个 键 值 为 大 的 对 象 的 指针 (如果 找到 ) 或 返回 “none”( 搜 
null 指针 时 )。 








在 下 一 个 右 子 树 指针 中 进行 ， 然 后 遇 到 一 个 null 指针 ， 因 此 终止 搜索 (搜索 不 


2. 根据 情况 反复 遍历 左 子 树 和 右 子 树 指针 (如果 大 小 于 当前 节点 的 键 ， 就 遍 


索 到 一 
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运行 时 间 与 过 程 中 所 遍历 的 指针 数量 成 正比 , 最 多 为 搜索 树 的 高 度 ( 如 果 搜 

















索 不 成 功 ， 遇 到 null 指针 ， 则 为 高 度 加 1)。 


5.3.4 在 O 〇 (高 度 ) 时 间 内 实现 Min 和 Max 





搜索 树 的 属性 使 我 们 很 容易 实现 Min 和 Max 操作 。 




















Min (Max): 在 数据 结构 中 返回 具有 最 小 〈 最 大 ) 键 值 的 对 象 的 指针 。 
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树 根 的 左 子 树 中 的 键 只 可 能 比 树 根 的 键 更 小 ， 而 右 子 树 的 键 只 可 能 比 树 根 的 
键 更 大 。 如 果 左 子 树 为 空 ， 那 么 树 根 就 是 具有 最 小 键 值 的 对 象 。 否 则 ， 左 子 树 中 
具有 最 小 键 值 的 对 象 就 是 整 棵 树 中 具有 最 小 键 值 的 对 象 。 这 就 指示 我 们 沿 着 树 村 
的 左 子 树 指针 向 下 访问 ， 并 不 断 重复 这 个 过 程 。 

例如 ， 在 我 们 前 面 所 考虑 的 搜索 树 中 《〈 见 图 5.5): 


过 名 
?> > 























































































































最 小 





图 5.5 三 又 搜索 示例 (2) 



































反复 地 沿 着 左 子 树 指针 向 下 访问 可 以 找到 具有 最 小 键 值 的 对 象 。 

















Min ( Max ) 
1. 从 根 节 点 开始 。 
2. 只 要 有 可 能 ， 就 一 直人 遍历 左 子 树 指针 ( 右 子 树 指针 )， 直 到 遇见 一 个 null 
指针 。 
3. 返回 指向 最 后 一 个 访问 的 对 象 的 指针 。 
它 的 运行 时 间 与 这 个 过 程 中 所 访问 的 指针 数量 成 正比 ， 也 就 是 O (高度)。 





























5.3.5 在 O( 高 度 ) 时 间 内 实现 Predecessor 


接着 是 Predecessor 操作 。Successor 操作 的 实现 与 Predecessor 操作 的 
相似 。 

Predecessor: 根据 数据 结构 中 指向 一 个 对 象 的 指针 ， 返 回 键 值 仅 次 于 该 对 象 
的 对 象 的 指针 如果 这 个 对 象 已 经 是 最 小 键 值 ， 就 报告 “none”)。 

给 定 一 个 对 象 x,， x 的 前 驱 节 点 在 哪里 ? 不 会 在 x 的 右 子 树 ， 因 为 右 子 树 中 
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的 键 值 都 大 于 x 的 键 值 ( 根 据 搜索 树 的 属性 )。 下 面 看 一 下 相关 实例 ， 如 图 5.4 
所 示 。 


这 个 例子 描述 了 两 种 情况 。 前 驱 节 点 可 能 出 现在 左 子 树 ( 对 于 键 值 为 3 和 5 
的 节点 )， 或 者 是 树 中 上 面 层次 中 的 一 个 祖先 节点 《对 于 键 值 为 2 和 4 的 节点 )。 
基本 模式 : 如 果 一 个 对 象 x 的 左 子 树 不 为 空 , 那么 这 棵 子 树 的 最 大 元 素 就 是 
x 的 前 驱 节点 。 “否则, x 的 前 驱 节 点 就 是 x 的 祖先 节点 中 键 值 仅 次 于 x 的。 这 相 
当 于 从 x 向 上 访问 父 节 点 的 指针 , 然后 第 一 次 左 转 所 遇 到 的 节点 就 是 我 们 所 寻找 
的 目标 节点 。2 例如 ， 在 上面 的 搜索 树 中 ， 从 键 值 为 4 的 节点 向 上 追踪 父 节点 指 
针 首 先是 右 转 〈 遇 到 一 个 更 大 的 键 值 5 的 节点 )， 然 后 向 左 转 ， 就 到 达 正 确 的 前 
驱 节 点 (3)。 如 果 x 的 左 子 树 为 空 ， 并且 它 的 上 面 也 不 存在 向 左 转 的 情况 ， 那 么 
它 就 是 搜索 树 中 最 小 的 节点 ， 不 存在 前 驱 节 点 《就 像 上 面 的 搜索 树 中 键 值 为 1 
的 那个 节点 )。 


































































































































































































Predecessor 
1. 如果 的 左 子 树 非 空 ， 就 返回 在 这 棵 左 子 树 上 应 用 Max 操作 的 结果 。 
2 否则 ， 朝 着 树 根 的 方向 向 上 遍历 父 节点 指针 。 如 果 遍 历 过 程 中 访问 了 连续 
的 节点 和 Zz 并 且 y 是 z 是 右 子 树 ， 就 返回 指向 z 的 指针 。 
3. 否则 ， 就 报告 “none”。 
它 的 运行 时 间 与 它 在 整个 过 程 中 所 访问 的 指针 数量 成 正比 ， 在 所 有 情况 下 均 
为 O (高 度 )。 






































5.3.6 在 O(n) 时 间 内 实现 OutputSorted 操作 





先 回顾 OutputSorted 操作 。 
OutputSorted: 按照 键 值 的 顺序 逐个 输出 数据 结构 中 的 对 象 。 












































QD 在 小 于 x 的 键 值 的 所 有 键 中 ，x 的 左 子 树 中 的 键 是 最 接近 x 的 〈 可 以 进行 验证 )。 在 这 棵 左 子 树 的 所 

有 键 中 ， 最 大 的 键 值 是 最 接近 于 x* 的 。 

@) 向 右 转 只 会 遇 到 具有 更 大 键 值 的 节点 ,不 可 能 是 x 的 前 驱 节 点 。 搜 索 树 的 属性 还 提示 了 更 遥远 的 祖先 
节点 或 非 祖 先 节点 都 不 可 能 是 x 的 前 驱 节 点 (可 以 进行 验证 )。 
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这 个 操作 的 一 种 简便 的 实现 方法 是 ， 首 先 使 用 Min 操作 输出 具有 最 小 键 值 
的 对 象 ， 然 后 反复 调用 Successor 操作 依次 输出 剩余 的 对 象 。 一 种 更 好 的 方法 是 
更 用 搜索 树 的 中 序 遍 历 方法 ， 它 递归 地 处 理 根 节点 的 左 子 树 ,， 然后 是 根 节点 ,再 
是 根 节点 的 右 子 树 。 这 个 思路 完美 地 契合 了 搜索 树 的 属性 ,提示 OutputSorted 首 
先 应 该 按 顺 序 输出 根 节点 的 左 子 树 中 的 对 象 , 然后 输出 根 节点 的 对 象 , 再 按 顺序 
输出 根 节 点 的 右 子 树 中 的 对 象 。 



























































































































































OutputSorted 
1， 在 根 节点 的 左 子 树 上 递归 地 调用 OutputSorted。 
2. 输出 根 节 点 的 对 象 。 
3. 在 根 节 点 的 右 子 树 上 递归 地 调用 OutputSorted。 
对 于 一 棵 包含 个 对 象 的 树 ， 这 个 操作 执行 n 个 递归 操作 (每 个 节点 执行 1 
次 )， 并 且 每 次 递归 执行 常数 级 的 操作 ， 因 此 它 的 整体 运行 时 间 是 O(n)。 


5.3.7 在 O( 高 度 ) 时 间 内 实现 Insert 操作 


到 目前 为 止 所 讨论 的 操作 均 不 会 对 给 定 的 搜索 树 进 行 修改 ， 因 此 这 些 操作 不 
存在 破坏 搜索 树 的 属性 这 种 风险 。 
接 下 来 的 Insert 和 Delete 两 个 操作 对 树 进行 了 修改 , 因此 必须 注意 维护 搜索 
树 的 属性 。 
Insert: 对 于 一 个 新 对 象 x， 把 x 添加 到 数据 结构 中 。 
Insert 操作 站 在 Search 的 “肩膀 ”之 上 。 对 键 值 为 大 的 对 象 的 不 成 功 搜索 能 
够 找到 这 个 对 象 应 该 出 现 的 位 置 。 这 正 是 放置 键 值 为 上 的 新 对 象 的 适当 位 置 〈 重 
置 原先 的 null 指针 )。 在 我 们 的 演示 例子 中 ， 键 值 为 6 的 新 对 象 的 正确 位 置 正 是 
不 成 功 的 搜索 完成 时 所 在 的 位 置 ， 如 图 $.6 所 示 。 
如 果树 中 已 经 存在 一 个 键 值 为 大 的 对 象 ， 应 该 怎么 办 呢 ? 如 果 我 们 希望 避免 
E 复 的 键 ， 就 可 以 忽略 这 次 插入 。 否 则 ， 搜 索 就 会 沿 着 键 值 为 k 的 现 有 对 象 的 左 
子 树 进行 ， 不 断 向 前 直到 遇见 一 个 null 指针 。 
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@ @ 
外 5 > ( 妃 国 
GO DO © 


5.6 ”添加 键 为 6 的 节点 





Da 











Insert 
1. 从 根 节点 开始 。 


2. 根据 需要 反复 遍历 左 子 树 和 右 子 树 (如 果 丰 不 大 于 当前 节点 的 键 ， 就 遍历 
左 子 树 ; 如 果 天 大 于 当前 节点 的 键 ， 就 遍历 右 子 树 ) 直到 遇见 一 个 null 指针 。 


3. 用 指向 新 对 象 的 指针 替换 原先 的 null 指针 。 把 新 节点 的 父 节 点 指针 设置 为 








它 的 父 节 点 ， 把 它 的 子 节点 指针 设置 为 nul]. 








这 个 操作 保留 了 搜索 树 的 属性 ， 因 为 它 把 新 对 象 放 在 它 应 该 出 现 的 位 置 。? 
它 的 运行 时 间 与 Search 相同 ， 也 是 O (高 度 )。 


5.3.8 在 O 〇 (高 度 ) 时 间 内 实现 Delete 操作 


在 大 多 数 数据 结构 中 , Delete 操作 是 最 难 正确 实现 的 操作 之 一 , 搜索 树 也 不 例外 。 
Delete: 对 于 一 个 键 ， 从 搜索 树 中 删除 键 值 为 的 一 个 对 象 ( 如 果 存 在 )。 
主要 的 困难 在 于 删除 一 个 节点 后 对 树 进行 修补 ， 以 恢复 搜索 树 的 属性 。 


第 一 步 是 调用 Search 找到 一 个 键 值 为 k 的 对 象 〈 如 果 不 存在 这 样 的 对 象 ， 
则 Delete 不 会 执行 任何 操作 )。 这 里 存在 3 种 情况 ， 取 决 于 x 具有 0 个、1 个 还 
是 2 个 子 树 。 如 果 x 是 叶 节点 ， 那 么 可 以 在 没有 后 顾 之 忱 的 情况 下 将 它 删 除 。 例 
如 ， 如 果 我 们 从 前 面 的 搜索 树 中 删除 键 为 2 的 节点 ( 见 图 5.7): 











































































































QD 按照 更 为 正式 的 说 法 ， 设 x 表示 新 插入 的 对 象 ， 并 考虑 一 个 现 有 对 象 y。 如 果 x 并 不 是 以 y 为 根 节点 
的 子 树 的 一 个 成 员 , 则 它 不 会 破坏 y 为 根 节点 的 子 树 的 搜索 树 属性 。 如 果 它 是 以 ? 为 根 节 点 的 子 树 的 
成 员 ， 则 yy 是 在 x 的 不 成 功 搜索 过 程 中 曾经 访问 过 的 节点 之 一 。x 和 y 的 键 在 这 次 搜索 中 明确 地 进行 
了 比较 ， 当 且 仅 当 x 的 键 不 大 于 y 的 键 时 ，x 才 会 被 放 在 y 的 左 子 树 中 。 





















































129 


130 第 5 章 搜索 树 上 





删除 键 为 2 的 节点 
树 中 的 节点 与 以 前 一 样 ， 唯 一 可 能 存在 的 区 
到 了 保持 。 


图 5.7 














对 于 每 个 剩余 的 节点 y，y 的 子 
属性 仍然 得 
| 除 x 导致 失去 了 父 


别 就 是 x 已 经 被 删除 。 搜 索 树 的 属 怕 
当 x 其 有 1 个 子 节 点 y 时 , 我 们 可 以 把 它 拼接 起 来 。 册 
中 一 个 子 节 点 。 显而易见 的 修复 方法 是 让 
























































Et 的 父 节 点 z 失去 了 


节点 ， 并 且 x 原 乡 
了 继承 x 原先 的 位 置 〈 作 为 z 的 子 节点 )。 
删除 键 为 5 的 节点 〈 见 图 5.8): 


例如 ， 如 果 我 们 从 前 面 的 搜索 树 9 






































5.8 删除 键 为 5 的 节点 





二 | 


与 第 一 种 情况 的 原因 相同 ， 搜 索 树 的 属性 仍然 得 到 了 保留 。 
的 情况 在 于 x 具有 两 个 子 节点 的 时 候 。 删 除 x 导致 两 个 节点 没有 了 
示例 子 中 ， 也 没有 显 







































































































































































西 难 
父 节 点 ， 并 且 不 清楚 应 该 把 它们 放 在 什么 地 方 。 在 这 个 消 
而 易 见 的 方法 在 删除 树 的 根 节点 之 后 修复 这 棵 树 。 
关键 的 技巧 是 把 困难 情况 简化 为 其 中 一 种 简单 情况 。 首 先 ， 使 用 Predecessor 
“由 于 x 具有 两 个 子 节点 ， 因 此 它 的 前 驱 节 点 是 它 的 
于 这 个 最 大 键 值 是 尽 








操作 计算 x 的 前 驱 节 点 y。” 
( 非 空 !) 左 子 树 中 具有 最 大 键 值 的 节点 (参见 5.3.5 节 )。 




















后 继 节 点 。 














(D 如 果 读 者 喜欢 ， 那 么 也 可 以 
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它 可 能 有 左 子 节点 ， 也 可 能 没有 左 子 节点 。 


下 面 是 一 种 疯狂 的 思路 : 把 x 与 y 进行 交换 ! 在 我 们 的 演示 例子 中 ， 
5.9 所 示 。 


3 作为 x， 二 叉 树 示例 如 图 


这 种 疯狂 的 ， 

















思路 看 上 去 不 
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(2) 
> 人 5) 
(3) 





5.9 ”交换 后 的 二 又 树 






































沿 着 右 子 树 指针 计算 产生 的 (参见 5.3.4 节 )， 因 此 y 不 可 能 还 有 右 子 节点 。 


根 节 点 


象 是 个 好 主意 , 因为 我 们 现在 违反 了 搜索 树 的 属性 


〈 键 值 为 3 的 节点 出 现在 键 值 为 2 的 节点 的 左 子 树 中 )。 但 是 , 每 次 违反 搜索 树 属 














性 的 情况 都 涉及 x (3)， 而 这 了 






































了 y (2) 以 前 的 位 置 ， 因 此 它 现 在 不 再 具有 右 子 节点 。 


从 x 的 新 位 置 















































删除 它 会 成 为 两 个 简 
们 就 将 它 删除 ， 如 果 它 具 有 左 子 节点 ， 我 们 


























删除 x 之 后 ， 搜 索 树 的 属性 仍然 得 到 了 保留 ， 如 图 5.10 所 示 。 


























D 


5.10 删除 键 为 3 的 节点 


ELETE 操作 


E 是 我 们 希望 删除 的 节点 。? 由 于 现在 x (3) 占据 


的 情况 之 一 : 如 果 它 没有 左 子 节点 , 我 
对 它 进 行 拼接 。 无 论 是 哪 种 方式 ， 


1. 使 用 Search 操作 找到 具有 键 值 上 的 对 象 x (如 果 不 存在 这 个 对 象 ， 就 停止 操作 )。 








QD 对 于 





中 ,了 作为 x 的 直接 前 


此 ， 


每 个 除了 yy 之 外 的 节点 z,z 的 子 树 


FP 唯 一 可 能 
































驱 ， 它 的 键 大 了 











搜索 树 的 








属性 对 了 





Fy 出 现在 新 位 


x 


原先 的 左 子 树 中 的 所 有 键 ， 小 于 x 原先 的 右 子 树 








时 














[仍然 是 成 立 的 ， 只 要 不 牵涉 x。 





b 现 的 新 节点 是 x。 同 时 ,在 所 有 键 值 的 有 序 排 多 





pb 的 键 。 
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2. 如 果 x 没 有 子 节点 ， 就 删除 x， 把 x 的 父 节点 的 适当 子 节点 指针 设置 为 null 
(如 果 x 是 根 节 上 点， 新 树 就 是 空 的 )。 

3. 如 果 xx 具 有 1 个子 节点 ， 就 对 x 进行 拼接 ， 把 x 的 父 节点 的 合适 子 节 点 指 
针 设 置 为 指向 xX 的 子 节 点 ,x 的 子 节 点 的 父 指针 设置 为 x 的 父 指针 (如果 x 是 
根 节 点 ， 它 的 子 节点 就 成 为 新 的 根 节点 )。 

4. 否则 ， 就 把 x 与 它 的 左 子 树 中 具有 最 大 键 值 的 节点 进行 交换 ， 并 从 x 的 新 
位 置 删除 x ( 它 在 这 个 位 置 最 多 只 有 1 个子 节点 )。 








这 个 操作 除 进 行 一 个 Search 操作 和 一 个 Predecessor 操作 之 外 ， 还 执行 一 些 








常数 级 的 工作 ， 因 此 它 在 O〈 高 度 ) 时 间 内 运行 





5.3.9 ”强化 的 搜索 树 支 持 Select 操作 


最 后 ， 我 们 讨论 Select 操作 。 

Select: 对 于 一 个 数 i( 它 的 值 在 1 和 数据 结构 所 包含 的 对 象 数量 之 间 )， 返 
回 数 据 结 构 中 具有 第 i 小 的 键 值 的 对 象 的 指针 。 

为 了 让 Select 能 够 快速 运行 , 我 们 将 对 搜索 树 进行 强化 ,每 个 节点 记录 与 树 
本 身 的 结构 有 关 的 信息 ， 而 不 仅仅 是 对 象 的 信息 。? 搜 索 树 可 以 通过 许多 方式 进 
行 强化 。 这 里 ， 我 们 将 在 每 个 节点 x 中 存储 一 个 整数 size(x)， 表 示 以 x 为 根 节点 
的 子 树 的 节点 数量 (包括 x 本 身 )。 在 我 们 的 示例 中 〔( 见 图 5.11): 


py 





































































































We 


ee size(1)=2 
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Size(2)=1 (2) 区 人 Size(4)=1 


图 5.11 某 个 示例 






































思路 也 可 以 用 于 在 O《〈 高 度 ) 时 间 内 实现 Rank 操作 (可 以 进行 验证 )。 
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小 测验 5.1 


假设 一 棵 搜索 树 中 的 节点 x 有 具有 子 节点 yy 和 2z。size(x)、size(y) 和 size(z) 之 间 有 
什么 关系 ? 


(a) size(x) = max{size(y), size(z)}+1 

(b ) size(x) = size(y) + size(z) 

(c) size(x) = size(y) + size(z)+1 

(d) 它们 之 间 不 存在 基本 关系 

(正确 答案 和 详细 解释 参见 5.3.10 节 . ) 











这 个 附加 信息 有 什么 用 处 昵 ? 想象 一 下 ， 我 们 在 一 棵 包含 100 个 节点 的 搜 
索 树 中 寻找 键 值 为 第 17 小 ( 即 i=17) 的 对 象 。 从 根 节点 开始 ， 我 们 可 以 以 常数 
级 时 间 计 算 它 的 左 子 树 和 右 子 树 的 大 小 。 根据 搜索 树 的 属性 , 左 子 树 中 的 每 个 键 
都 小 于 根 节 点 和 右 子 树 中 的 键 。 如 果 左 子 树 的 节点 数量 是 23， 则 树 中 就 有 25 个 
较 小 的 键 ， 其 中 包括 第 17 小 的 键 。 如 果 左 子 树 的 节点 数量 只 有 12， 那 么 右 子 树 
就 包含 了 除 这 13 个 较 小 键 之 外 的 其 他 键 ， 并 且 第 17 小 的 键 就 是 它 所 包含 的 87 
个 键 中 的 第 4 小 的 键 。 无 论 是 哪 种 情况 ， 我 们 都 可 以 采用 递归 的 方式 调用 Select 
找到 需要 寻找 的 对 象 。 
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Select 操作 
1. 从 根 节点 开始 , 设 j 表 示 它 的 左 子 树 的 大 小 ( 如 果 它 没有 左 子 树 ， 则 j=0 )。 
2. 如 果 斌 计 1， 就 返回 指向 根 节点 的 指针 。 
3， 如果 i<j+1， 就 在 左 子 树 中 递归 地 计算 第 i 小 的 键 。 
4， 如 果 记 计 1， 在 右 子 树 中 递归 地 计算 第 并 -1 小 的 键 .“ 
于 搜索 树 的 每 个 节点 存储 了 它 的 子 树 的 大 小 , 因此 每 次 递归 调用 只 进行 党 
数 级 的 工作 。 每 个 递归 调用 在 树 中 向 下 深入 一 步 ， 因 此 总 的 工作 量 是 O( 高 度 )。 


需要 付出 的 代价 。 我 们 仍然 需要 为 此 付出 一 些 代价 。 我 们 在 搜索 树 中 添 







































































@ 递归 的 结构 可 能 会 让 我 们 回想 起 本 系列 图 书卷 
素 的 角色 。 
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第 6 章 所 讨论 的 选择 算法 , 根 节点 扮演 了 基准 元 
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加 并 利用 了 元 数据 ， 并 且 对 树 进行 修改 的 每 个 操作 除 维护 搜索 树 的 属性 之 外 
还 必须 负责 更 新 这 个 信息 。 我 们 应 该 认真 思考 怎样 重新 实现 Insert 和 Delete 
操作 ,使 它们 的 运行 时 间 仍 然 保 持 在 O( 高 度 )， 同 时 能 够 正确 地 维护 所 有 的 子 
树 大 小 信息 。?” 
5.3.10 “小 测验 5.1 的 答案 

正确 答案 :(c)。 根 节点 为 x 的 子 树 中 的 每 个 节点 是 x 本 身 、x 的 左 子 树 中 的 
节点 或 x 的 右 子 树 中 的 节点 。 因 此 ， 我 们 可 以 得 到 下 面 的 结果 : 











Size(X) = size(y) + size(z) + 1 
pn] 











左 子 树 中 的 节点 。” 右 子 树 中 的 节点 x 
*5.4 平衡 搜索 树 


5.4.1 ”努力 实现 更 好 的 平衡 








二 义 搜索 树 的 每 个 操作 ( 除 OutputSorted 之 外 ) 的 运行 时 间 与 树 的 高 度 成 正 

















比 ， 其 范围 是 从 最 佳 











场景 的 大 约 log 《完美 平衡 树 ) 到 n -1〔 链 式 的 树 )， 其 












































中 表示 树 中 的 对 象 数量 。 事实 上 ,很 可 能 出 现 平 衡 性 较 差 的 树 。 例 如 ， 当 对 象 
是 按照 已 排序 的 顺序 (或 者 反 序 ) 插入 时 〈 见 图 5.12): 
9 
| 
/ A ee 
9 
(2 
\1) 
图 5.12 平衡 性 较 差 的 树 





QD 例如， 对 于 Insert 操作 ， 帮 
增加 1。 




















E 根 节点 到 这 个 新 插入 对 象 之 间 的 路 径 上 的 








每 个 对 象 ， 都 需要 把 子 树 的 大 小 
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对 数 级 运行 时 间 和 线性 运行 时 间 的 区 别 是 巨大 的 ， 因 此 在 实现 Insert 和 
Delete 时 需要 多 付出 一 些 努 力 ， 使 它们 仍然 维持 O( 高 度 ) 的 运行 时 间 。 只 是 需要 
使 常数 因子 更 大 一 点 ， 这 是 为 了 保证 树 的 高 度 总 是 保持 在 O(log n)。 


有 几 种 不 同类 型 的 平衡 搜索 树 可 以 保证 O(log n) 的 高 度 , 因此 能 够 实现 表 5.2 
中 的 成 绩 单 所 描述 的 操作 运行 时 间 。" 坏 处 是 在 实现 细节 中 ， 它 们 对 于 平衡 搜索 
树 而 言 可 能 会 非常 麻烦 。 幸运 的 是 , 我 们 总 是 可 以 使 用 现成 的 实现 ， 几 乎 不 会 遇 
到 需要 自己 从 头 实现 的 情况 。 不 过 , 我 鼓励 读者 对 平衡 二 又 树 幕后 的 一 切 加 以 探 
究 ， 可 以 阅读 相关 教科 书 或 者 探索 在 线 免 费 可 用 的 开源 实现 和 可 视 化 演示 。 为 
了 进一步 激发 读者 的 学 习 欲 望 , 我 们 在 本 章 的 最 后 讨论 平衡 二 又 树 的 实现 中 最 为 
普遍 的 思路 之 一 。 


5.4.2 ”旋转 


平衡 搜索 树 的 所 有 常见 实现 都 使 用 了 旋转 ,这 是 一 种 常数 时 间 级 的 操作 , 它 
执行 适当 次 数 的 局 部 重新 平衡 操作 ， 同 时 保留 搜索 树 的 属性 。 例 如 ， 我们 可 以 想 
象 一 下 怎样 把 上 面 的 5 个 对 象 的 链 式 树 转 换 为 一 棵 更 平衡 的 搜索 树 , 这 可 以 通过 
两 个 局 部 重新 平衡 操作 来 完成 〈 见 图 5.13): 








































































































































































































5.13 ” 链 式 树 转换 为 更 平衡 的 搜索 树 








pa 























旋转 发 生 在 一 对 父子 节点 之 间 ， 就 是 反 转 它们 的 关系 (图 5.2)。 右 旋转 就 是 


























@ 这 种 搜索 树 的 常见 类 型 包括 红 - 黑 树 、2-3 树 、AVL 树 、 展 开 树 、B 树 及 B+ 树 。 

@) 这 方面 的 标准 教科 书包 括 Introduction to Algoritms《《 算 法 入 门 , 第 3 版 》 MIT Press，2009) 的 第 13 章 〈 作 
者 为 Thomas H. Cormen、Charles E. Leiserson、Ronald L. Rivest 和 Clifford Stein〉 及 Algorithms《 算 法 ， 第 
4 版 》) 的 3.3 节 ( 作 者 为 Robert Sedgewick 和 Kevin Wayne )。 关 于 红 - 黑 树 的 基础 知识 ， 可 以 在 
www.algorithmsilluminated.org 查看 视频 。 
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当 子 节点 y 是 它 的 父 节点 x 的 左 子 节点 时 (因此 y 的 键 值 小 于 x)。 在 旋转 之 后 ， 
x 是 yy 的 右 子 节点 。 当 yy 是 x 的 右 子 节点 时 ， 进 行 一 次 左旋 转 就 可 以 使 x 成 为 y 
的 左 子 节点 。 

搜索 树 的 属性 决定 了 其 他 细节 。 例 如 , 考虑 一 次 左旋 转 , y 是 x 的 右 子 节点 。 
搜索 树 属性 提示 了 x 的 键 小 于 y 的 键 , x 的 左 子 树 中 的 所 有 键 (图 5.14 中 的 “4”) 
都 小 于 x (和 y) 的 键 。y 的 右 子 树 中 的 所 有 键 〈 图 5.14 的 “C”) 都 大 于 y (和 x) 
的 键 。y 的 左 子 树 中 的 所 有 键 〈 图 5.14 中 的 “8”) 都 位 于 zx 和 y 的 键 之 间 。 在 旋 
转 之 后 ,yy 继承 了 x 的 父 节点 ， 并 把 x 作为 它 的 新 左 子 节点 。 有 一 种 特殊 的 方法 
可 以 把 所 有 的 片段 都 放 回 去 ， 同 时 保留 搜索 树 的 属性 , 因此 我 们 可 以 赁 自己 的 常 
识 行事 。 
搜索 树 中 有 3 个 自由 覃 位 4、 妃 和 C: y 的 右 子 树 指针 以 及 x 的 两 个 子 树 指 
针 。 搜 索 树 属性 要 求 我 们 把 最 小 的 子 树 (4) 作为 x 的 左 子 树 ， 最 大 的 子 树 (C) 
作为 y 的 右 子 树 。 这 就 只 为 子 树 B(x 的 右 子 树 指 针 ) 留 下 了 1 个 空 槽 。 很 幸运 ， 
搜索 树 的 属性 仍然 得 到 了 满足 : 这 棵 子 树 中 的 所 有 键 都 位 于 x 和 y 之 间 ， 这 棵 子 
树 最 终 成 为 了 y 的 左 子 树 〈 需 要 如 此 〉 以 及 x 的 右 子 树 〈 类 似 )。 
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| Pm | 
( x) AN 
了 a 了 
i i 一 用 
A (y) (x) 入 
J > 2 
小 于 x 的 A 人 八 人 入 全 
所 有 键 了 \ /\ / \ 大 \ / \ 
6 / / \ A / 
所 有 位 xy /ON\ /Nm /NAN/e AN 
之 间 的 键 “7 \/ “ \ 所 有 键 / \/ \ 
(a) 在 旋转 之 前 (b) 在 旋转 之 后 





图 5.14 一 个 实际 的 左旋 转 














右 旋转 就 是 左旋 转 的 相反 操作 ( 见 图 5.15)。 
由 于 旋转 只 是 重 置 了 几 个 指针 , 因此 它 可 以 在 常数 级 的 操作 时 间 内 完成 。 通 
过 构建 ， 它 保留 了 搜索 树 的 属性 。 
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| 1 
| wx 
[x \ 1 
AN 向 着 根 节点 
RS 区 ee 
(y | / \ a JA 
| / \ x 
a ~、 4 c \ 2 < 
A 入 / \、 大 于 x 的 A 
/\ /\ / “\ 所 有 键 
/NAN Pt. 
/ A Ne / B \ B C 
小 于 y 的 _/ N 7/ \、 一 所 有 位 于 y 和 x 之 间 的 键 
所 有 键 > WA 
(a) 在 旋转 之 前 (b) 在 旋转 之 后 


图 5.15 一 个 实际 的 右 旋转 














Insert 和 Delete 操作 都 对 树 进行 了 修改 , 它们 必须 使 用 旋转 。 如 果 没 有 旋转 ， 
这 样 的 操作 可 能 会 让 树 变 得 更 加 不 平衡 ,由 于 单 次 的 插入 或 删除 只 可 能 对 搜索 树 
的 平衡 造成 一 些 破坏 , 因此 用 少量 常数 级 或 者 对 数 级 的 旋转 纠正 新 发 生 的 不 平衡 
情况 应 该 是 非常 合理 的 。 前 面 所 提 到 的 平衡 搜索 树 的 实现 就 是 这 样 做 的 。 旋 转 操 
作 进 行 的 额外 工作 为 Insert 和 Delete 操作 增加 了 O(log nn) 级 的 开销 ， 因 此 它们 的 
整体 运行 时 间 仍 然 是 O(log n)。 

































































5.5 本章 要 点 


。 如 果 我 们 的 应 用 需要 维护 一 组 不 断 变 化 的 对 象 的 完全 有 序 的 表示 形式 ， 

那么 平衡 搜索 树 通常 是 适合 的 数据 结构 。 

。 平衡 二 又 树 支 持 运行 时 间 为 O(log n) 的 Search、Min、Max、Predecessor、 
Successor、Select、Rank、Insert 和 Delete 操作 ， 其 中 二 表示 对 象 的 数量 。 

。 二 又 搜索 树 的 每 个 节点 表示 一 个 对 象 ， 每 个 节点 都 有 一 个 父 指 针 、 一 个 
左 子 树 指针 和 一 个 右 子 树 指针 。 

。 搜索 树 属 性 表示 对 于 树 的 每 个 节点 x，x 的 左 子 树 中 的 键 都 小 于 x 的 键 ， 
x 的 右 子 树 中 的 键 都 大 于 xz 的 键 。 
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。 搜索 树 的 高 度 是 从 树 根 到 一 个 叶 节 点 的 最 长 路 径 的 长 度 。 具 有 nn 个 节点 
的 二 又 搜 索 树 的 高 度 范围 可 以 从 logzn 到 n-1。 








。 在 一 棵 基本 的 二 又 搜索 树 中 ， 
































上 述 所 有 支持 的 操作 都 可 以 在 O( 高 度 ) 时 





间 内 实现 。( 对 于 Select 和 Rank， 需 要 对 树 进行 强化 ， 为 每 个 节点 维护 


一 个 字段 ， 表 示 子 树 的 大 小 。) 





。 平衡 二 又 搜索 树 在 Insert 和 Delete 操作 中 执行 了 一 些 额外 的 操作 ， 但 它 





们 的 运行 时 间 仍 然 是 O( 高 度 )， 只 是 常数 因子 要 大 一 点 ， 这 是 为 了 保证 














树 的 高 度 总 是 O(log n)。 





5.6 章 末 习题 














问题 $5.1 ”下面 的 说 法 哪些 是 正确 的 ? (选择 所 有 正确 的 答案 。) 









































(a) 具有 nn 个 节点 的 二 又 搜 索 树 的 高 度 不 可 能 小 于 O(log n)。 


(b) 二 叉 搜 索 树 支 持 的 所 有 操作 
O(log n)。 








( 除 OutputSorted 之 外 ) 的 运行 时 间 都 是 





《c) 堆 属 性 是 搜索 树 属 性 的 一 种 特殊 情况 。 























(d) 二 又 平衡 搜索 树 总 是 比 有 序数 组 更 为 实用 。 


问题 5.2 有 一 棵 包含 n 个 节点 的 二 叉 树 “通过 一 个 指向 根 节 























问 )。 这 棵 树 的 每 个 节点 都 有 一 个 size 























点 的 指针 访 
字段 《如 5.3.9 节 所 述 )， 但 这 些 字段 目前 














还 没有 被 填充 。 计 算 所 有 这 些 字段 的 1 











FE 确 值 需要 多 长 时 间 ? 























(a) 9( 高 度 ) 
(b) O(n) 
(c) O(n log n) 


(d) O(n’) 
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编程 题 


问题 5.3 ”此 题 涉 及 4.3.3 节 的 中 位 维护 问题 ， 对 堆 和 搜索 树 的 相对 性 能 进行 
了 探索 。 


(a) 用 自己 喜欢 的 编程 语言 实现 4.3.3 节 中 基于 堆 的 中 位 维护 问题 解决 










































































(b) 用 一 棵 二 叉 搜 索 树 以 及 它 的 Insert 和 Select 操作 实现 这 个 问题 的 一 个 解 








使 用 哪 种 实现 的 速度 更 快 呢 ? 


可 以 使 用 现 有 的 堆 和 搜索 树 的 实现 ， 也 可 以 自己 从 头 实现 。( 关 于 测试 用 例 
和 挑战 数据 集 ， 可 以 访问 www. algorithmsilluminated.org。) 
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散 列 表 《〈 又 称 散 列 


相关 联 的 对 象 〈 每 个 对 象 可 能 还 包含 许多 其 他 数据 )。 与 堆 和 搜索 树 不 同 ， 散 列 
有 关 的 信息 。 散 列表 的 存在 意义 是 因为 它 支 持 超级 快速 的 搜 
索 ， 在 这 种 场合 下 又 称 为 查找 。 散 列表 可 以 告诉 我 们 数据 结构 中 是 否 存在 某 个 对 


表 并 不 维护 与 顺序 











在 本 书 的 最 后 一 
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| 


















































章 ， 我 们 讨论 一 种 极其 实用 并 且 被 广泛 使 用 的 数据 结构 ， 即 
映射 )。 与 堆 和 搜索 树 相似 ， 散 列表 维护 一 组 不 断 变化 的 与 键 




































































象 ， 并 且 真 的 能 够 做 到 极端 快速 〈 远 远 快 于 堆 或 搜索 树 )。 











先 讨论 散 列表 所 支持 的 操作 〈 见 6.1 节 )， 然 后 讨论 它 的 应 用 〈 见 6.1 节 ) 以 及 一 
些 可 选 的 实现 细节 ( 见 6.3 节 和 6.4 节 )。6.5 节 和 与 6.6 节 讨 论 了 布 隆 过 滤器 ， 它 



































与 散 列 表 相似 ， 它 




















与 往常 一 样 ， 我 们 首 























需要 的 空间 更 少 ， 但 付出 的 代价 是 偶尔 会 出 现 错误 。 


6.1 支持 的 操作 








散 列表 的 存在 意义 是 它 能 够 记录 一 个 不 断 变 化 的 含 键 对象 的 集合 ， 支 持 快速 

































































了 由 


恩 《 也 许 以 员工 



































查找 〈 通 过 键 )。 因 此 ， 它 可 以 很 方便 地 检查 数据 结构 中 是 否 存 在 茶 个 对 象 。 例 
如 ,如 果 我 们 的 公司 管理 了 一 个 电子 商务 网 站 , 可 能 会 使 用 一 个 散 列 表 记 录 员 工 








的 姓名 为 键 )， 并 使 用 另 一 个 散 列表 存储 历史 交易 〈 以 交易 ID 


























为 键 )， 此 外 还 使 有 











昌 一 个 散 列表 保存 网 站 的 访问 者 (以 IP1 


地 址 为 键 )。 


6.1 支持 的 操作 





从 概念 上 说 ， 我 们 可 以 把 散 列 表 看 成 数组 。 数 组 的 一 个 良好 特性 就 是 它 能 够 
提供 直接 的 随机 访问 。 想 知道 数组 第 17 个 位 置 的 对 象 是 什么 ， 只 要 直接 访问 这 
个 位 置 就 可 以 了 ， 这 只 需要 常数 级 的 时 间 。 想 要 修改 第 23 个 位 置 的 对 象 的 内 容 ， 
同样 可 以 在 常数 级 时 间 内 轻松 完成 。 

假设 我 们 需要 一 种 数据 结构 以 记 住 朋友 的 电话 号 码 。 如 果 运 气 非常 好 ， 所 有 
朋友 的 父母 都 很 开明 ， 直 接 用 正 整 数 给 自己 的 孩子 取 名 例如 在 1 和 10 000 之 
间 )。 在 这 种 情况 下 ， 我 们 可 以 在 一 个 长 度 为 1 000 的 数组 中 存储 电话 号 码 (一 
般 不 需要 这 么 大 )。 如 果 最 好 的 朋友 的 名 字 是 173， 那 么 他 的 电话 号 码 就 存储 在 
数组 的 第 173 个 位 置 。 


为 了 忘记 一 位 不 再 来 往 的 朋友 548， 可 以 用 一 个 默认 值 履 盖 位 置 548。 这 种 
基于 数组 的 解决 方案 可 以 很 好 地 完成 任务 ， 即 使 我 们 的 朋友 随 着 时 间 的 变化 不 断 
增加 或 减少 。 插入 、 删 除 和 查找 所 需要 的 空间 都 很 小 ， 并 且 这 些 操作 均 可 以 在 和 常 
数 级 的 时 间 内 完成 。 

我 们 的 朋友 取 的 很 可 能 是 更 为 有 趣 但 相对 不 太 方便 记录 的 名 字 , 例如 Alice、 
Bob 和 Carol 等 。 我 们 是 不 是 仍然 可 以 采用 基于 数组 的 解决 方案 呢 ? 原则 上 ， 
我 们 可 以 维护 一 个 数组 ， 用 每 个 可 能 出 现 的 名 字 例如， 最 多 25 个 字母 ) 作 
为 元 素 的 索引 。 为 了 查找 Alice 的 电话 号 码 ， 我 们 可 以 在 数组 的 “Alice” 位 置 
进行 查找 (图 6.1)。 















































































































































































































































> +1-415-555-5555 
> +1-212-999-9999 


—> null 








| 


吕 
m 
昌 








| | 
| 一 
a 
| | 
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ce 
“Alicf’ 




















图 6.1 原则 上 ， 我 们 可 以 用 一 个 长 度 不 超过 25 个 字符 的 
字符 串 作为 索引 存储 朋友 的 电话 号 码 
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小 测验 6.1 
长 度 为 25 个 字符 的 字符 串 一 共有 多 少 个 ? (选择 正确 的 描述 。) 
(a) 比 头发 的 数量 还 要 多 。 
(b) 比 现 有 的 网 页 数量 还 要 多 。 
(c) 比 地 球 上 所 有 的 存储 空间 都 要 大 (以 比特 为 单位 )。 
(d) 比 宇宙 中 原子 的 数量 还 要 多 。 


(正确 答案 和 详细 解释 参见 小 测验 6.1 的 答案 。) 














小 测验 6.1 希望 表达 的 重点 是 这 种 解决 方案 所 需要 的 数组 实在 是 太 巨 大 了 ! 
是 不 是 存在 一 种 蔡 代 的 数据 结构 能 够 实现 数组 的 所 有 功能 ， 也 就 是 常数 级 的 插 
入 、 删除 和 查找 , 并 且 使 用 的 空间 与 它 存储 的 对 象 数量 成 正比 昵 ? 散 列 表 就 是 这 
样 的 数据 结构 。 















































散 列 表 支 持 的 操作 


查找 ( 即 搜 索 ): 根据 一 个 键 k， 返 回 散 列表 中 一 个 键 值 为 的 对 象 的 指针 (或 
报告 不 存在 这 样 的 对 象 )。 


插入 : 把 一 个 给 定 的 新 对 象 x 添加 到 散 列 表 中 。 
删除 : 根据 一 个 键 E， 从 散 列表 中 删除 键 值 为 大 的 那个 对 象 (如 果 存 在 )。 























在 散 列 表 中 , 所 有 这 些 操作 一 般 是 以 常数 时 间 级 运行 的 , 与 原生 的 基于 数组 
的 解决 方案 相当 ， 不 过 它 需 要 一 些 在 正常 情况 下 能 满足 的 前 提 条 件 ( 在 6.3 节 描 
述 )。 散 列表 所 使 用 的 空间 与 它 所 存储 的 对 象 数量 成 正比 ， 这 比 原生 的 基于 数组 
的 解决 方案 要 少 得 多 ,后 者 与 它 可 能 存储 的 最 大 对 象 数量 成 正比 。 散 列表 支持 的 
操作 以 及 它们 的 典型 运行 时 间 见 表 6.1。 


表 6.1 散 列 表 支 持 的 操作 以 及 它们 的 典型 运行 时 间 


































































































操作 典型 运行 时 间 
Lookup (查找 ) O(1)* 











Insert( 插 入) O(1) 











6.2 散 列 表 的 应 用 





续 表 
操作 典型 运行 时 间 
Delete 删除》 O(1)* 






































注 : 星 号 (*) 表示 这 个 运行 时 间 当 且 仅 当 散 列表 具有 适当 的 实现 〈 采 用 良好 的 散 列 函数 
且 表 的 大 小 适宜 ) 它 所 存储 的 数据 是 非 变态 时 才 有 。 更 多 细节 参见 6.3 节 。 

















































































































总 之 ， 散 列表 并 不 支持 太 多 的 操作 。 但 是 ， 对 于 它 所 文 持 的 操作 ， 其 性 能 是 
极为 出 色 的 。 如 果 查 找 操作 在 程序 的 工作 中 占据 了 相当 大 的 份额 , 那么 我 们 的 脑 
海里 应 该 立刻 产生 一 个 想法 ， 这 个 程序 应 该 使 用 散 列 表 ! 























什么 时 候 使 用 散 列 表 
如 果 我 们 的 应 用 需要 在 一 个 动态 变化 的 对 象 集合 中 进行 快速 的 查找 ,那么 散 列 
表 通 常 就 是 我 们 应 该 选择 的 数据 结构 。 





小 测验 6.1 的 答案 


正确 答案 :〈c)。 这 个 小 测验 的 重点 是 让 我 们 对 一 些 极其 巨大 的 数字 进行 有 趣 
的 思考 ， 而 不 是 确认 正确 的 答案 本 身 。 我 们 假设 一 个 字母 共有 26 种 选择 〈 忽 略 标 
点 符号 、 大 小 写 等 情况 )。 这 样 ， 一 共有 26” 个 长 度 为 25 个 字母 的 字符 串 ， 其 规模 
大 约 是 10”( 还 包含 长 度 为 24 个 字母 或 更 少 字母 的 字符 串 ， 但 数量 远 小 于 25 个 字 
母 的 字符 串 ， 因 此 可 以 当 作 低 阶 项 被 忽略 )。 一 个 人 的 头发 数量 一 般 是 10” 左右 。 可 
索引 的 网 页 数 以 十 亿 计 ， 但 实际 的 网 页 数量 大 约 是 1 万 亿 〈10”)。 地 球 上 的 存储 空 
间 的 总 数 很 难 估计 ， 但 是 在 2018 年 ， 可 以 确定 不 会 超过 1 羌 字 节 10” 字 节 ， 或 大 
约 10” 比特 )。 另 外 ， 己 知 宇宙 中 的 原子 数量 估计 大 约 是 10”。 
















































































































































































6.2 ” 散 列 表 的 应 用 





令 人 难以 置信 的 是 ， 很 多 不 同 的 应 用 最 终 可 以 简化 为 反复 查找 ， 因 此 适合 使 
用 散 列 表 。 早 在 20 世纪 50 年代, 研究 人 员 所 创建 的 第 一 个 编译 器 就 需要 使 用 符 
号 表 , 这 是 一 种 用 于 记录 程序 的 变量 和 函数 名 称 的 展 好 数据 结构 。 发 明 散 列表 就 
是 为 了 这 种 类 型 的 应 用 。 举 一 个 更 为 现代 的 例子 , 假设 有 个 网 络 路 由 器 的 任务 是 
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阻 断 来 自 茶 些 IP 地 址 〈 可 能 是 发 送 垃圾 邮件 的 主机 ) 的 数据 包 。 每 当 一 个 新 的 
数据 包 到 达 时 ， 这 个 路 由 器 必须 查找 它 的 源 PP 地 址 是 否 在 黑 名 单 中 。 如 果 是 ， 
它 就 阻 断 这 个 数据 包 ， 否 则 就 把 这 个 数据 包 推 送 到 它 的 目标 地 址 。 同 样 ,， 这 种 反 
复 的 查找 过 程 正 是 散 列表 大 显 身 手 的 场合 。 


6.2.1 应 用 : 消除 重复 
消除 重复 是 散 列表 的 一 个 经 典 应 用 。 假 设 我 们 正在 处 理 一 批 海量 的 数据 , 这 
种 数据 是 以 流 的 形式 每 次 到 达 一 小 段 。 例 如 : 


。 我 们 正在 对 存储 在 磁盘 上 的 一 个 巨型 文件 进行 一 次 扫描 ， 这 个 文件 所 存 
储 的 信息 可 能 是 一 家 大 型 零售 公司 上 年 一 整 年 的 所 有 交易 ， 


。 我 们 正在 Web 中 息 行 ， 并 处 理 数 以 十 亿 计 的 Web 页 面 ; 
。 我 们 正在 追踪 以 迅猛 的 速度 穿 过 一 个 网 络 路 由 器 的 数据 包 ，; 
。 我 们 正在 观察 自己 的 网 站 的 访问 者 。 


在 消除 重复 问题 中 , 我 们 的 责任 是 忽略 所 有 的 重复 项 , 只 记录 到 目前 为 止 所 
发 现 的 不 同 的 键 。 例如 ， 除 自己 网 站 的 访问 总 数 外 ,我 们 还 可 能 对 曾经 访问 网 站 
的 不 同 IP 地 址 的 数量 感 兴趣 。 散 列表 为 消除 重复 问题 提供 了 一 种 简单 的 解决 


方案 。 
























































































































































































































































用 散 列表 消除 重复 
当 一 个 键 值 为 的 新 对 和 象 x 到 达 时 : 
1. 使 用 LOOKUP (查找 ) 操作 检查 散 列 表 中 是 否 已 经 包含 了 键 值 为 上 的 对 象 。 
2 如果 答案 为 否 ， 就 使 用 Insert (插入 ) 操作 把 x 插入 到 散 列表 中 。 
在 处 理 完 数据 之 后 ， 散 列表 为 数据 流 中 的 每 个 键 只 包含 了 1 个 对 象 。” 






































QD 在 大 多 数 散 列 表 的 实现 中 ， 可 能 以 任意 的 顺序 以 线性 时 间 对 它 所 存储 的 对 象 进行 迭代 。 这 就 允许 
在 消除 重复 之 后 对 对 象 进行 进一步 的 处 理 。 



































6.2 散 列 表 的 应 用 












































6.2.2 应用: 两 数 之 和 问题 
下 一 个 例子 更 具 学 术 性 ， 它 说 明了 重复 查找 是 如 何在 令 人 惊讶 的 地 方 出 现 
的 。 这 个 例子 是 关于 两 数 之 和 问题 的 。 
问题 : 两 数 之 和 


输入 : 包含 个 整数 的 未 排序 数组 4 以 及 一 个 目标 整数 
目标 : 判断 4 中 是 否 有 两 个 数 xX 和 J 满足 xX+y=t。 * 











两 数 之 和 问题 可 以 通过 穷 举 搜索 法 解 














检查 它们 之 和 是 否 满足 要 求 。 每 个 x 和 yy 都 有 7 个 选择 ， 
的 算法 。 
我 们 可 以 做 得 更 好 。 我 们 所 注意 到 的 第 一 个 关键 是 对 了 





行 时 间 〈@ (02 ) 














合 条 件 的 y 最 多 只 














输出 : 如 果 对 于 


否则 输出 “no”。 











两 数 之 和 问题 ( 


输入 : 包含 hn 个 整数 的 数组 4 以 及 一 个 
某 


对 i,j € {12,3，……7}， 





一 种 平方 级 运 





决 ， 也 就 是 尝试 所 有 可 能 
因此 这 是 























x 的 每 一 种 选择 , 符 











有 1 个 ( 即 六 xz)。 我 们 为 什么 不 特意 寻找 这 个 呢 ? 


第 1 次 尝试 ) 
目标 整数 也 


存在 4[ 中 +4[ 站 =4 则 输出 “yes”， 















































for TI = 1 to ndo 
>:=t 上 -al 
if AA 包含 y then // 线 性 搜索 
return "yes" 
return "no™ 
这 种 方法 行 得 通 吗 ? for 循环 有 次 迭代 ， 它 在 一 个 未 排序 数组 中 搜索 一 个 
整数 需要 线性 时 间 ， 因 此 它 看 上 去 是 男 一 种 平方 时 间 级 的 算法 。 但 是 我 们 还 记得 ， 








QD 这 个 问题 有 两 个 稍 有 





























似 《〈 应 该 可 以 进行 验证 )。 


区 别 的 版 本 ， 取 决 于 x 和 y 是 否 必须 不 同 。 我 们 将 允许 x=y， 男 
) 





ey 





种 情况 也 相 
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排序 是 一 种 低 代 价 的 基本 算法 。 为 什么 不 通过 排序 使 所 有 的 搜索 充分 利用 有 序数 组 
的 便利 呢 ? 
两 数 之 和 问题 ( 有 序数 组 解决 方案 ) 
输入 : 包含 nn 个 整数 的 数组 4 以 及 一 个 目标 整数 工 . 
输出 : 如 果 对 于 某 对 i,j e{1,2,3,…,n}， 存 在 4[] +4[]=t， 则 输出 “yes”， 否 


则 输出 “no”。 








sort A // 使 用 排序 子 程 序 
for TI = 1 tondo 
yy:= 上 -ar] 
if A 包含 y then // 二 分 搜索 
return "yes" 


return "no"™ 





小 测验 6.2 
两 数 之 和 问题 基于 有 序数 组 的 改良 实现 算法 的 运行 时 间 是 什么 ? 
(a) O(n) 
(b) O(n logn) 
(c) O(n'’) 
(d) O(n ) 
(正确 答案 和 详细 解释 ， 参 见 6.2.4 节 . ) 

两 数 之 和 问题 基于 有 序数 组 的 解决 方案 相对 于 原始 的 穷 举 搜索 发 生 了 巨大 
的 改进 ， 它 展示 了 本 系列 图 书卷 1 中 的 算法 工具 所 提供 的 强大 力量 ,。 但是, 我 们 
还 可 以 做 得 更 好 。 我 们 所 注意 到 的 最 后 一 个 事实 是 , 这 个 算法 之 所 以 需要 有 序数 
组 , 是 因为 算法 需要 对 数组 进行 快速 的 搜索 。 由 于 这 个 算法 的 绝 大 部 分 工作 最 终 
可 以 归结 为 重复 查找 , 所 以 我 们 的 脑海 里 应 该 会 产生 这 样 的 想法 : 有 序数 组 有 点 
用 力 过 狐 了 ， 这 个 算法 真正 需要 的 是 散 列 表 ! 




















































































































































































































NN ”6.2 散 列 表 的 应 用 


两 数 之 和 问题 ( 散 列 表 解 决 方案 ) 
输入 : 包含 nn 个 整数 的 数组 4 以 及 一 个 目标 整数 工 . 


输出 : 如 果 对 于 某 对 i, je {1,2,3,…,n}， 存 在 4[i 让 +4[ 站 =t， 则 输出 “yes”， 否 


则 输出 “no”。 








及 := 空 的 散 列表 
for II = 1 ton do 
把 A[i] 插 入 到 五 
for II = 1 ton do 
y := t—- A[i] 
if 且 包 含 了 7 y then  // 使 用 Lookup 
return "yes" 








return "no" 











假设 散 列 表 的 实现 相当 优秀 ， 并 且 数 据 也 不 是 变态 数据 ，Insert 和 Lookup 
操作 一 般 是 以 常数 时 间 运 行 的 。 在 这 种 情况 下 , 两 数 之 和 基于 散 列表 的 解决 方案 
是 以 线性 时 间 运 行 的 。 由 于 任何 正确 的 算法 至 少 必须 观察 4 中 的 每 个 数字 1 次， 
所 以 这 已 经 是 最 佳 的 运行 时 间 (最 多 只 能 在 常数 因子 上 做 些 改进 )。 


6.2.3 应 用 : 搜索 巨大 的 状态 空间 


散 列 表 的 用 途 就 是 加 快 搜索 的 速度 。 一 个 需要 大 量 搜索 的 应 用 领域 是 游 
戏 ， 或 者 按照 更 通用 的 说 法 就 是 规划 问题 。 例 如 ， 考 虑 一 个 对 棋子 的 不 同 移动 
分 支 进行 探索 的 棋 类 程序 。 棋 子 的 移动 序列 可 以 看 成 是 一 个 巨型 有 向 图 中 的 不 
同 路 径 ， 其 中 顶点 对 应 于 游戏 的 状态 (所 有 棋子 的 位 置 以 及 现在 轮 到 谁 下 )， 
边 对 应 于 棋子 的 移动 《从 一 个 状态 变化 为 男 一 个 状态 )。 这 种 图 的 规模 是 天 文 
数字 级 的 (超过 10” 个 顶点 )， 因 此 无 法 把 它们 明确 记录 下 来 并 应 用 第 2 章 以 
来 所 描述 的 任何 图 搜索 算法 。 一 种 更 可 行 的 替代 方案 是 运行 一 种 类 似 宽度 优先 
的 搜索 的 图 搜索 算法 ， 从 当前 状态 出 发 ， 对 棋子 的 不 同 移动 的 短期 结果 进行 探 
索 ， 直 到 到 达 某 个 时 间 限 制 。 为 了 使 这 种 方法 尽 可 能 可 行 ， 重 要 的 是 避免 多 次 
探索 同一 个 顶点 ， 因 此 搜索 算法 必须 记录 它 已 经 访问 过 的 顶点 。 与 前 面 的 消除 
重复 应 用 一 样 ， 这 个 任务 可 以 很 方便 地 用 散 列表 实现 。 当 搜索 算法 到 达 一 个 顶 
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点 时 ， 该 算法 在 一 个 散 列 表 中 对 该 顶点 进行 查找 。 如 果 这 个 顶点 已 经 在 散 列 表 






































该 


中 ， 算 法 就 将 其 跳 过 并 进行 回 
并 继续 进行 探索 。”® 


6.2.4 小 测验 6.2 的 


全 


和 


调 。 否 则 ， 























| 
AN 
已 汪 





正确 答案 : (b)。 
HeapSort (4.3.1 节 ) 9 
都 可 以 通 索 法 


通过 
O(n log n)。 


一 个 步骤 可 以 月 








二 分 搜 























法 就 把 这 个 顶点 提 





日 MergeSort〈 见 本 系列 图 : 
在 O(n log n) 时 间 内 实现 。for 循环 的 n 次 从 代 中 的 每 一 次 
以 O(log nn) 时间 实 现 。 两 者 相 加 产生 最 终 的 时 间 边 界 为 


*6.3 ”实现 的 高 层 思 路 














本 节 讨 六 
射 到 数组 
解决 策略 。6.4 节 对 散 列 表 的 实现 提供 了 更 详细 的 


6.3.1 两 个 简单 的 解决 万 案 


仑 散 列 表 的 实现 中 应 用 了 两 种 寻 














散 列 表 存 储 了 一 个 键 集合 








的 位 置 》 和 冲突 《不同 的 键 映 射 同一 个 位 置 )， 并 讨论 








建议 。 





S〔 以 及 相关 的 数据 )， 这 些 键 来 自 所 有 可 














的 键 的 全 集 U。 例 如,，U 可 以 是 2” 个 可 能 的 IP 二 
能 的 字符 串 和 所 有 可 能 出 现 的 棋盘 状态 等 。 
问 一 个 Web 

的 棋盘 


台 已 品 
Bed 





















































状态 。 在 散 列表 的 大 部 分 应 





























QD 在 游戏 应 用 程序 
3 章 ) 的 一 种 
从 w 到 达 一 个 示 顶 点 ”所 需要 的 估 
个 特定 的 目的 地 1 的 行车 路 线 ， 那 么 这 个 启 





E 较 流行 的 图 搜索 算法 称 为 4* (“4 


示 的 泛 化 ， 它 在 































































































集合 8 可 


也 址 、 长 度 不 超过 25 
最 近 24 小 时 内 实际 访 
页 面 的 人 P 地 址 、 朋 友 的 实际 姓名 集合 或 者 程序 在 之 前 5 秒 内 所 探索 
中 ,UU 的 规模 是 天 文 数字 级 别 的 , 但 它 的 子 


人 bb 日 
有 十 





星 ”) 搜索 。4*# 搜 索 算 法 是 Dijkstra 算法 〈 
一 个 边 (v, w) 的 Dijkstra 得 分 (3.1 节 ) 中 增加 了 一 
计 成 本 。 例 如 ， 如 果 我 们 计算 从 一 
式 的 估计 值 可 以 是 从 w 到 + 的 









































@ 花 点 时 间 思 考 一 下 现代 科技 , 并 推测 还 有 什么 地 方 可 以 使 
几 个 很 好 的 应 
@ 不 存在 更 快速 


DS 









































及 














至 少 好 基于 比较 的 排序 算法 。 





Rh 
< 


的 实现 ， 








散 列 表 。) 


应 该 不 需 


fi 入 到 散 列表 中 





书卷 1) 或 


要 的 高 层 思路 : 散 列 函数 ( 它 把 键 映 








了 常见 的 7 
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台 已 品 


能 出 现 
的 所 有 可 
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中 


的 








个 启发 式 上 


个 特定 的 起 始 顶 点 w 到 一 
线 距 离 。 
要 多 长 时 间 就 可 以 想 


LIH 
LE 





集 5 的 大 小 还 是 可 控 的 。 





























在 概念 上 非常 简单 的 实现 Lookup、Insert 和 Delete 操作 的 方法 就 是 使 用 一 











个 











的 集合 ， 例 如 所 有 的 3 
种 基于 数组 的 解决 方案 是 没有 问题 的 ,所 有 操作 的 
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端 巨大 的 许多 应 
角度 ， 我 们 只 能 考虑 空间 需求 与 8 


第 二 种 简单 的 解决 方案 是 把 















































使 

比 基 
于 它 
数 级 














] 的 空间 与 S| 成 正比 。 坏 消 
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民 大 的 数组 ， 数 组 中 的 每 个 元 素 表示 U 中 可 能 出 现 的 每 一 个 键 。 如 果 U 是 较 小 
个 字符 的 字符 串 《〈 例 如 用 3 
运行 时 间 都 是 常数 级 的 。 在 以 极 





字母 代码 记录 机 场 的 名 称 )， 这 

















中 ， 这 种 解决 方案 是 荒唐 的 ， 也 是 完全 无 法 实现 的 。 站 在 现实 的 
《而 不 是 | 避 ) 成 正比 的 数据 结构 。 


对 象 存储 在 链表 中 。 好 消息 是 这 个 解决 方案 所 











息 是 Lookup 和 Delete 的 运行 时 间 也 是 与 S| 成 正比 ， 




















表 6.2)。 


于 数组 的 解决 方案 所 支持 的 常数 级 时 间 的 操作 要 差 得 多 。 散 列表 的 关键 在 
能 够 同时 实现 这 两 种 方案 的 最 佳 结果 ， 空 间 需 求 与 S| 成 正比 ,操作 时 间 为 党 
( 





表 6.2 散 列 表 结合 了 数组 和 链表 的 最 佳 特 性 ， 
对 象 数 量 成 正比 ， 操 作 时 间 为 常数 级 

















空间 需求 与 它 所 存储 的 




































































数据 结构 空间 Lookup 的 典型 运行 时 间 
数组 O(IU)) O(1) 

链表 O(IS)) OUdsh) 

散 列 表 O(IS)) OU 六 

注 : 星 号 (*) 表示 这 个 运行 时 间 当 且 仅 当 散 列表 具有 适当 的 实现 ， 并 且 它 所 存储 的 数据 是 
非 变态 时 才 成 立 。 


6.3.2 ” 散 列 函数 








为 了 实现 两 种 方案 的 最 但 
数组 的 长 度 与 1S 成 正 上 








结果 ， 散 列表 模仿 了 基于 数组 的 简单 解决 方案 , 但 
EF 而 不 是 与 |UI 成 正比 。" 现 在 可 以 大 致 把 n 看 成 是 2|3|。 





散 列 函数 把 我 们 真正 关注 





的 东 























(D 集合 5S 随时 间 而 变化 ,但 定期 增加 数组 的 长 度 , 使 其 与 $ 的 当 


见 6.4.2 节 )。 





























前 大 小 成 正比 并 不 是 一 件 困难 的 事 | 





























西 (例如 朋友 的 姓名 、 棋 盘 的 状态 等 ) 转换 为 
散 列 表 中 的 位 置 。 按 照 正式 的 说 法 ， 散 列 函数 是 一 种 从 键 的 全 集 U 到 数组 位 置 


























尘 ( 详 
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的 集合 的 函数 《图 6.2)。 在 散 列 表 中 ,位 置 通常 是 从 0 开始 编号 的 ， 因 



































置 的 集合 是 {0,1,2,…,n 一 1}。 


散 列 函数 





此 数组 位 


散 列 浮 数 有 UU {0,1,2,…,n 一 1}， 对 于 全 集 U 中 的 每 个 键 ， 在 长 度 为 的 数组 


中 为 它 分 配 一 个 位 置 。 

















页 


























6.2” 散 列 函数 把 全 集 U 中 可 能 出 现 的 每 个 键 映 射 到 {0,1,2,…,n 一 1} 中 的 一 个 位 置 。 









































当 |Ul>n 时 ， 表 定 会 有 两 个 不 同 的 键 被 映射 到 同一 个 位 置 


散 列 函数 告诉 我 们 从 什么 地 方 开始 搜索 一 个 对 象 。 如 果 我 们 所 选择 的 散 列 


函数 表示 h("Alice")=17， 就 表示 字符 串 “Alice” 被 散 列 到 位 置 17， 因 
置 17 就 是 我 们 寻找 Alice 的 电话 号 码 的 起 始 位 置 。 类 似 地 ， 位 置 17 就 是 把 Alice 










































































的 电话 号 码 插入 到 散 列表 中 的 第 一 个 位 置 。 


6.3.3 ”冲突 是 不 可 避免 的 























此 数组 位 


我 们 可 能 已 经 注意 到 一 个 严重 的 问题 : 如 果 两 个 不 同 的 键 〈 例 如 Alice 和 





Bob) 被 散 列 到 同一 个 位 置 (例如 23)， 那 么 会 怎么 样 呢 ? 如 











果 我 们 寻找 的 是 

















Alice 的 电话 号 码 ， 但 是 在 数组 的 位 置 23 所 找到 的 是 Bob 的 ! 





电话 号 码 ， 习 

















b 么 我 


们 怎么 知道 Alice 的 电话 号 码 是 否 也 在 这 个 散 列 表 中 呢 ? 如 果 我 们 试图 把 Alice 
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的 电话 号 码 插入 到 位 置 23， 但 这 个 位 置 此 前 已 经 被 占据 ， 那 么 我 们 应 该 把 它 放 
在 哪里 呢 ? 

当 一 个 散 列 函数 h 把 两 个 不 同 的 键 后 和 映射 到 同一 个 位 置 时 〈 即 
ACED)=Ane))， 这 种 情况 称 为 冲突 。 















































冲突 

对 于 芝 中 的 两 个 键 石 和 磊 ， 如 果 存 在 Ai) = 有 所 )， 它 们 就 出 现 了 冲突 。 

冲突 会 导致 对 象 在 散 列表 中 的 位 置 产 生 混淆 ， 我 们 应 该 尽 可 能 地 减少 冲 
。 为 什么 不 设计 一 个 优秀 的 不 会 引发 任何 冲突 的 散 列 函数 呢 ? 这 是 因为 冲突 
:个 可 避免 的 ， 其 原因 就 是 鸽 宠 原理 。 一 个 显而易见 的 事实 是 ， 如 果 铝 笼 的 数 
正 整 数 2 无 论 我 们 采取 什么 方式 往 鸽 笼 里 面 塞 n+1 只 馈 子 ， 至 少 有 一 个 
要 装 下 两 上 只 例子。 因此， 当 数 组 的 位 置 数量 〈 铝 笼 ) 小 于 全 集 避 〈 铝 子 
) 时 ， 无 论 散 列 函数 (把 驴子 分 配 到 饮 笼 的 方法 ) 有 多 么 智能 ， 至 少 会 导 
致 1 次 冲突 (图 6.2)。 在 大 多 数 散 列表 应 用 中 (包括 6.2 节 的 应 用 ),，|Ul 要 远 远 
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散 列表 的 冲突 要 比 铀 笼 原 理 所 论 证 的 更 加 不 可 避免 ， 其 原因 就 是 生日 悖 论 ， 
它 是 小 测验 6.3 的 主题 。 























小 测验 6.3 

考虑 有 nn 个 生日 随机 的 人 , 一 年 366 天 作为 每 个 人 生日 的 可 能 性 是 相同 的 ( 假 
设 这 n 个 人 都 出 生 于 头 年 )。 如 果 任 意 有 两 个 人 同一 天 生日 的 概率 至 少 达到 
50%， 那 么 nn 需要 有 多 大 ? 

(a) 23 

(b) 57 

(c) 184 

(d) 367 








(正确 答案 和 详细 解释 参见 6.3.7 节 。 ) 











生日 悖 论 与 散 列 有 什么 关系 呢 ? 我 们 可 以 想象 一 个 独立 地 分 配 每 个 键 的 
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散 列 函数 ， 它 统一 采用 随机 的 方式 把 每 个 键 分 配 到 {0,1,2,…,n 一 1} 中 的 一 个 位 


置 。 























这 个 散 列 函数 没有 什么 实用 性 (参见 小 测验 6.5)， 但 这 种 随机 函数 是 我 们 























对 实际 使 用 的 散 列 函数 进行 比较 时 可 以 作为 参考 的 黄金 准则 (参见 6.3.6 节 )。 


生 


























悖 论说 明了 即使 存在 这 种 黄金 准则 ， 在 一 个 长 度 为 n 的 散 列表 中 ,一旦 有 

















一 个 较 小 的 常数 级 的 Vn 个 对 象 时 , 就 可 以 看 到 冲突 的 出 现 。 例 如, 当 n=10 000 























时 ， 插 入 200 个 对 象 就 可 能 导致 至 少 1 次 冲突 ， 即 使 此 时 还 有 98% 的 数组 位 置 
完全 未 被 使 用 。 


6. 








3.4 解决 冲突 的 万 法 : 链 地 址 法 


由 于 冲突 是 无 法 避免 的 ， 所 以 散 列 表 需 要 设法 解决 冲突 问题 。 本 节 和 6.3.5 


























节 将 描述 两 种 主要 的 方式 : 独立 链 地 址 法 (或 简称 为 链 地 址 法 〉 和 开放 地 址 法 。 
这 两 种 方法 均 会 导致 插入 和 碍 找 操 作 的 实现 一 般 能 够 达到 常数 级 运行 时 间 ， 前 
提 是 散 列 表 大 小 适宜 、 散 列 函 数 选择 得 当 , 并 且 散 列表 所 存储 的 数据 是 非 变态 的 
(比较 表 6.1)。 





























桶 和 列表 
链 地 址 法 很 容易 实现 ， 并 且 比较 直观 。 它 的 关键 思路 是 ， 默 认 采用 基于 链表 












































的 解决 方案 (6.3.1 节 ) 来 处 理 多 个 对 象 映 射 到 同一 个 数组 位 置 的 问题 《图 6.3 )。 
在 链 地 址 法 中 ， 数 组 的 位 置 常常 称 为 桶 ， 因 为 每 个 位 置 可 能 包含 多 个 对 象 。 这 样 ， 
Lookup、Insert 和 Delete 操作 均 可 以 简化 为 调用 一 次 散 列 函数 〈 用 于 找到 正确 的 


桶 





1. 




































































) 以 及 对 应 的 链表 操作 。 
链 地 址 法 
为 散 列 表 的 每 个 桶 保存 一 个 链表 。 


2. 为 了 对 键 值 为 大 的 对 象 执行 Lookup、Insert 和 Delete 操作 ， 在 桶 4[p(] 的 
链表 中 执行 Lookup、Insert 和 Delete 操作 ， 其 中 严 表 示 散 列 函 数 ，4 表示 散 列 
表 的 数组 。 
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0 


| 


1 —> null 


aa| 


2| 上下 panier| Bob 


| 

















3 | 一“ 人 Alice” 
图 6.3 ”存在 冲突 的 散 列表 采用 链 地 址 法 解决 冲突 ， 它 具有 4 个 桶 和 4 个 对 象 ， 字 符 串 
“Bob” 和 “Daniel” 在 第 3 个 桶 ( 桶 2) 发 生 了 冲突 。 图 中 只 显示 ] 
对 象 的 键 ， 没 有 显示 相关 联 的 数据 (例如 电话 号 码 ) 







































































































































































链 地 址 法 的 性 能 


只 要 及 的 调用 能 够 在 常数 时 间 内 完成 ， 那 么 Insert 操作 也 可 以 在 常数 时 间 内 (新 
对 象 可 以 在 链表 的 头 部 立即 插入 〉 完成。Lookup 和 Delete 操作 必须 对 4[4( 有 所 
存储 的 链表 进行 搜索 ， 其 时 间 与 链表 的 长 度 成 正比 。 为 了 在 采用 链 地 址 法 的 散 
列表 中 实现 常数 时 间 级 的 查找 ， 每 个 桶 的 链表 不 能 太 长 ， 在 理想 情况 下 是 一 个 
较 小 的 常数 。 

如 果 散 列表 快速 增长 ， 链 表 的 长 度 ( 和 查找 时 间 〉 就 会 急剧 增加 。 例 如 ， 
如 果 100n 个 对 象 存储 在 一 个 长 度 为 n 的 数组 中 , 一 个 典型 的 桶 需要 对 100 个 
对 象 进行 筛选 。 如 果 散 列 函 数 选择 不 当 而 产生 了 大 量 的 冲突 ， 那 么 也 会 导致 
查找 时 间 的 增加 。 例 如 ， 在 极端 情况 下 ， 所 有 的 对 和 象 都 互相 冲突 ， 它 们 被 映 
射 到 同一 个 桶 中 ， 导 致 查找 时 间 与 数据 集 的 大 小 成 正比 。6.4 节 详 细 描述 了 如 
何 管理 散 列 表 的 大 小 以 及 如 何 选择 适当 的 散 列 函数 以 实现 表 6.1 所 描述 的 运 
行 时 间 边 界 。 


6.3.5 解决 冲突 的 万 法 : 开放 地 址 法 


第 三 种 流行 的 解决 冲突 的 方法 是 开放 地 址 法 。 当 散 列 表 只 需要 支持 Insert 和 
Lookup (而 不 需要 Delete ) 操作 时 , 开放 地 址 法 是 一 种 更 容易 实现 和 理解 的 方法 。 
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我 们 将 把 注意 力 集中 在 这 种 情况 。” 

在 开放 地 址 法 中 , 数组 的 每 个 位 置 存 储 0 个 或 1 个 对 象 , 而 不 是 存储 一 个 链 
表 《〈 因 此 ， 数 据 集 的 大 小 | 引 不 能 超过 散 列 表 的 大 小 n)。 一 旦 发 生 冲突 ， 立 即 就 
会 给 Insert 操作 造成 麻烦 : 如 果 已 经 有 一 个 不 同 的 对 象 存储 在 位 置 4[AD] 中 , 那 
该 把 键 值 为 的 对 象 放 在 哪里 呢 ? 


探查 序列 
开放 地 址 法 的 思路 是 把 每 个 键 与 一 个 位 置 探查 序列 相关 联 ， 而 不 是 与 一 个 


单独 的 位 置 相关 联 。 探查 序列 的 第 1 个 数字 表示 首先 考虑 的 位 置 , 第 2 个 数字 表 
示 在 首选 位 置 已 经 被 占据 时 所 考虑 的 位 置 ， 接 下 来 以 此 类 推 。 对 象 存储 在 它 的 键 
探查 序列 中 第 1 个 未 被 占据 的 位 置 (参见 图 6.4)。 


一 > null 
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—> null 





一 Alice” 


“Daniel” pa 














一 一 > Null 





广 一 > null 








“Bob” 








null 























6.4 ”在 采用 开放 地 址 法 解决 冲突 的 散 列 表 中 进行 插入 。“Daniel” 的 
探查 序列 中 的 第 1 个 位 置 与 “Alice” 冲 突 ， 第 2 个 位 置 与 
“Bob” 冲 突 ， 第 3 个 位 置 是 未 被 占据 的 空位 置 


























































































































QD 大 量 的 散 列表 应 用 并 不 需要 Delete 操作 ， 包 括 6.2 节 的 3 个 应 用 。 
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开放 地 址 法 
1. Insert: 对 于 一 个 键 值 为 大 的 对 象 ， 对 与 大 相关 联 的 探查 序列 进行 和 迭代， 把 
该 对 象 存储 在 找到 的 第 1 个 空位 置 上 。 
2，Lookup: 对 于 一 个 键 上 对 与 该 键 相关 联 的 探查 序列 进行 迭代 ， 直 到 找到 所 
需要 的 对 象 (此 时 返回 这 个 对 象 ) 或 者 遇 到 一 个 空位 置 (此 时 报告 “无 ”)。” 











线性 探查 


我 们 可 以 采用 几 种 不 同 的 方法 , 用 一 个 或 多 个 散 列 函 数 来 定义 探查 序列 。 
其 中 比较 简单 的 方法 是 线性 探查 。 这 种 方法 使 用 一 个 散 列 函数 h， 并 把 键 大 
的 探查 序列 定义 为 h( 有 ,接着 是 AD+1， 然 后 是 AD+2， 接 下 来 以 此 类 推 (到 
达 最 后 一 个 位 置 时 回 绕 到 第 1 个 位 置 )。 也 就 是 说 ， 这 个 散 列 函 数 指定 了 插入 
或 查找 的 起 始 位 置 ， 它 们 向 右 进 行 扫描 ， 直 到 找到 所 需要 的 对 象 或 者 一 个 空 


位 置 。 
双重 散 列 


一 种 更 为 高 级 的 方法 是 双重 散 列 ， 它 使 用 了 两 个 散 列 函 数 。“ 第 1 个 散 列 函 
数 告诉 我 们 探查 序列 的 第 1 个 位 置 , 第 2 个 散 列 函数 指定 后 续 位 置 的 偏 移 量 。 例 
如 ， 如 果 有 (有 =17 且 h()=23， 那 么 查找 键 值 为 k 的 对 象 的 第 1 个 位 置 是 在 位 置 
17。 如 果 在 这 个 位 置 未 能 找到 ， 就 在 位 置 40 进行 查找 。 如 果 还 是 未 能 找到 ， 就 
在 位 置 63 进行 查找 ， 然 后 是 位 置 86， 接 下 来 以 此 类 推 。 对 于 一 个 不 同 的 键 忆 ， 
它 的 探查 序列 看 上 去 可 能 截然 不 同 。 例 如 ， 如 果 万 (D=42 且 有 P(D=27， 那 么 探查 
序列 依次 是 42、69、96 和 123 等 。 




























































































































































































































































































G@ 如 果 遇 到 一 个 空位 置 i， 那 么 可 以 确信 和 散 列表 中 不 存在 键 值 为 的 对 象 。 如 果 存 在 这 样 的 对 象 ， 它 要 
么 存储 在 位 置 i;， 要 么 存储 在 的 探查 序列 中 更 早 的 一 个 位 置 。 

@ 有 几 种 简单 且 “ 粗 糙 ” 的 方法 可 以 根据 一 个 散 列 函数 疡 定义 两 个 散 列 函数 。 例 如 ， 如 果 键 是 用 二 进 制 
表示 的 非 负 整数 ， 那 么 根据 hh 定义 轴 和 刀 的 方法 可 以 在 给 定 的 键 k 的 末尾 添加 一 个 新 数字 (0 或 1): 
三 (日 = A, ha(h) = hk+ 1)。 
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开放 地 址 法 的 性 能 

在 链 地 址 法 中 , 查找 的 运行 时 间 是 由 桶 的 链表 长 度 所 决定 的 。 在 开放 地 址 法 
中 ， 它 是 由 找到 一 个 空位 置 或 找到 待 查 找 对 象 所 需要 的 典型 探查 次 数 所 决定 的 。 
理解 开放 地 址 法 的 性 能 要 比 链 地 址 法 困难 一 些 ,但 我 们 很 容易 理解 它 的 性 能 随 着 
散 列 表 的 越 来 越 满 而 不 断 下 降 。 如 果 只 有 极 少 量 的 位 置 是 空 的 , 那么 通常 需要 很 
长 的 时 间 对 探查 序列 进行 查找 。 如 果 散 列 函 数 选择 不 当 而 产生 大 量 的 冲突 ,那么 
也 会 导致 性 能 的 下 降 (参见 小 测验 6.4)。 如 果 散 列表 的 大 小 适宜 并 且 散 列 函 数 选 
择 适 当 ， 那 么 开放 地 址 法 可 以 实现 表 6.1 中 Insert 和 Lookup 操作 的 运行 时 间 边 
界 。 关 于 这 方面 的 更 多 细节 ， 可 以 参考 6.4 节 。 


6.3.6 ”良好 的 散 列 遂 数 是 怎么 样 的 


无 论 采 用 哪 种 冲突 解决 策略 ， 散 列表 的 性 能 都 会 因为 冲突 数量 的 增加 而 下 
降 。 我 们 应 该 怎样 选择 散 列 函数 ， 使 之 不 会 产生 太 多 的 冲突 呢 ? 
糟糕 的 散 列 函数 


定义 散 列 函数 的 方法 数不胜数 ,不 同 的 选择 会 产生 不 同 的 效果 。 例 如 ， 对 于 
笨拙 的 散 列 函数 选择 ， 它 对 散 列表 的 性 能 有 什么 影响 呢 ? 





























































































































































































































小 测验 6.4 
考虑 一 个 长 度 n 宇 1 的 散 列 表 , hh 为 散 列 函 数 ， 对 于 每 个 键 keU， 都 有 AD=0。 
假设 有 一 个 数据 集 S 被 插入 到 这 个 散 列表 中 ， 且 | 和 2。 接 下 来 的 Lookup 操 
作 的 典型 运行 时 间 是 什么 ? 
(a) 链 地 址 法 为 9(1)， 开 放 地 址 法 为 9(])。 
(b ) 链 地 址 法 为 B(1)， 开 放 地 址 法 为 @(|5|)。 
(c) 链 地 址 法 为 9(|S|))， 开 放 地 址 法 为 (1)。 
(d) 链 地 址 法 为 9(S)， 开 放 地 址 法 为 6(|5|). 


(正确 答案 和 详细 解释 参见 6.3.7 节 。) 











变态 数据 集 和 散 列 函数 的 缺陷 
FP 的 傻瓜 式 散 列 函 数 。 反 之 ， 我 们 会 想 方 设 


我 们 绝 不 可 能 实现 小 测验 6.4 
法 设计 出 一 种 “聪明 ”的 散 列 函数 ， 以 保 订 
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FE 产生 较 少 的 冲突 ， 或 者 直接 在 书 中 





寻找 散 列 函 数 的 完美 实现 。 遗憾 的 是 ,我 无 法 说 明 完美 的 散 列 函 数 是 怎么 样 的 。 
每 个 散 列 函 数 ， 无 论 它 有 多 么 智能 
的 所 有 对 象 都 发 生 冲 突 时 ， 会 导致 散 列表 的 性 能 不 尽 人 意 ， 就 像 小 测验 6.4 所 














证 明 的 那样 。 
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都 有 自己 的 缺陷 。 当 一 个 巨大 的 数据 集中 














变态 数据 集 
对 于 每 个 散 列 函 数 h，，U {0,1,2,…n -1}， 存 在 一 个 大 小 为 |UV/n 的 键 子 集 5， 
使 得 每 一 对 键 后 ,所 eS， 都 存在 MDJ-HCBD)。 





















































看 上 去 有 些 不 可 思议 ， 但 这 只 是 6.3.3 节 对 钢 笼 原理 的 论证 的 一 种 归纳 。 确 定 一 














个 任意 的 智能 散 列 函数 户 如 果 瑚 完美 地 把 U 中 的 键 划分 到 个 位 置 ， 则 每 个 位 置 都 



































正好 分 配 了 |UWn 个 键 ,否则 ,同一 个 位 置 所 分 配 的 键 要 比 [UWn 更 多 。( 例 如 , 如果 |Ul=200 
且 n=25， 则 必须 给 同一 个 位 置 分 配 至 少 8 个 不 同 的 键 。) 在 任何 情况 下 ， 存 在 一 个 
位 置 ie {0,1,2…n 一 1}, 天 至 少 向 它 分 配 了 Ca 个 不 同 的 键 。 如 果 数 据 集 8 中 的 键 恰好 








都 分 配给 这 个 位 置 i;， 则 这 个 数据 集中 
上 面 的 数据 集 $ 是 “变态 的 ” 因 
丑 ”。 我 们 为 什么 要 关注 这 样 















































FP 的 所 有 对 象 都 发 生 了 冲突 。 
为 这 个 数据 集 的 目的 就 是 让 散 列 函数 “出 



































的 人 为 数据 集 呢 ? 主要 原因 是 它 解释 了 表 6.1 和 表 





6.2 中 散 列表 操 作 的 运行 时 间 边 界 的 星 号 。 与 我 们 到 目前 为 止 所 见 到 的 大 多 数 算 
法 和 数据 结构 不 同 , 如 果 对 输入 完全 不 进行 任何 限制 , 我 们 就 无 法 保证 实现 预期 

















的 运行 时 间 。 我 们 能 够 指望 的 最 好 结果 是 






































能 够 保证 这 些 运行 时 间 边 界 对 于 “ 非 变 











态 ” 数 据 集 是 成 立 的 ， 也 就 是 数据 集 的 定义 与 所 选择 的 散 列 函 数 是 独立 的 。® 

















QD 在 散 列表 的 大 多 数 应 用 中 ，|Ul 总 是 远大 于 n， 这 种 情况 下 大 小 为 |Uyn 的 数据 集 是 巨大 的 ! 
@ 考虑 随机 化 的 解决 方案 也 是 可 行 的 ， 也 可 以 遵循 本 系列 
法 的 精神 。 这 种 方法 称 为 全 局 散 列 ， 它 保证 对 于 每 个 数据 集 ， 从 一 小 类 散 列 函数 中 随机 选择 的 一 个 散 
列 函 数 一 般 会 产生 较 少 的 冲突 。 关 于 这 种 方法 的 细节 以 及 具体 的 例子 ， 可 以 观看 























www.algorithmsilluminated.org 上 上 























图 书卷 1 中 第 5 章 提 及 的 随机 化 QuickSort 算 











的 相关 视 


页 。 
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好 消息 是 使 用 一 个 精心 设计 的 散 列 函 数 ， 实 际 上 并 不 需要 担心 变态 数据 身 
问题 。 但 是 ， 安 全 方面 的 应 用 却 是 这 个 规则 的 一 个 重要 应 用 。?” 


随机 的 散 列 函数 


变态 数据 集 显 示 了 没有 任何 一 个 散 列 函数 能 够 保证 每 个 数据 集 的 冲突 数量 
都 很 少 。 我 们 能 够 期 望 的 最 好 结果 是 散 列 函数 对 于 “ 非 变态 的 ”数据 集 能 够 实现 
较 少 的 冲突 。” 

解除 散 列 函数 和 数据 集 之 间 的 相关 性 的 一 种 极端 方法 是 选择 一 个 随机 函数 ， 
意味 着 一 个 散 列 函数 hh 对 于 每 个 键 keU，h( 有 D 的 值 都 是 独立 选择 的 ， 是 从 数组 位 
置 {0,1,2,…,n 一 1} 中 统一 随机 选取 的 。 

当 散 列表 被 创建 之 后 ,函数 hh 只 需要 选择 一 次 , 然后 就 可 以 全 程 使 用 。 从 直 
觉 上 说 ,只 要 数据 集 $ 的 定义 与 无 关 , 我 们 就 可 以 期 望 这 样 的 随机 函数 一 般 能 
够 把 5 中 的 对 象 大 致 均匀 地 散 列 在 n 个 位 置 中 。 只 要 n 大 致 等 于 |S|， 冲突 的 数量 
就 是 可 控 的 。 


7 
到 




















































































































小 测验 6.5 
完全 随机 的 散 列 函数 为 什么 是 不 实用 的 ? (选择 所 有 正确 的 答案 .。 ) 
(a) 实际 上 它 是 实用 的 。 
(b) 它 不 具备 确定 性 。 
(c) 它 需 要 太 多 的 存储 空间 。 
(d) 它 需 要 太 多 的 计算 时 间 。 
(正确 答案 和 详细 解释 参见 6.3.7 节 。 ) 














(D Scott A. Crosby 和 Dan S. Wallach 的 论文 “Denial of Service via Algorithmic Complexity Attacks”(《 通 
过 算法 复杂 度 的 拒绝 服务 攻击 》，Proceedings of the 12th USENIX Security Symposium，2003) 描述 了 一 
个 有 趣 的 案例 研究 。Crosby 和 Wallach 显示 了 如 何 通过 巧妙 地 构建 一 个 变态 数据 集 ， 生 成 一 个 强大 的 

基于 散 列 表 的 网 络 入 侵 系 统 。 

@ 小 测验 6.4 中 的 笨拙 散 列 函数 对 于 每 个 数据 集 (无论 是 否 为 变态 数据 集 〉 都 会 导致 停 人 的 性 能 下 降 。 
















































































YN *6.3 实现 的 高 层 思路 


良好 的 散 列 函数 


“良好 ”的 散 列 函数 就 是 在 具备 随机 函数 的 优点 的 同时 又 没有 它 的 任何 
缺点 。 

















散 列 函 数 的 必 备 特性 
1. 调用 的 开销 小 ， 理 想 情况 下 为 O(1) 时 间 。 
2. 存储 开销 小 ， 理 想 情况 下 为 O(1) 内 存 。 
3. 模仿 随机 浮 数 的 行为 ， 把 非 变 态 数 据 集 大 致 均匀 地 散布 在 散 列表 的 各 个 位 
置 上 。 








良好 的 散 列 函数 是 什么 样 的 
虽然 对 良好 的 散 列 函数 的 描述 超出 了 本 书 的 范围 ,但 是 我 们 还 是 希望 看 到 一 
些 更 为 具体 的 指导 方针 ， 而 不 仅仅 是 上 面 提 及 的 纯 理 论 知 识 。 

例如 ， 考 虑 散 列表 中 的 键 是 从 0 到 某 个 很 大 的 整数 M 之 间 的 整数 。 "一 种 很 
自然 的 散 列 函数 选择 方案 是 把 键 值 根据 桶 的 数量 n 进行 取 模 : 


h(A) =kmodn 
其 中 ，k modn 就 是 从 中 反复 减 去 n， 直 到 结果 是 一 个 0 到 nn-1 之 间 的 整数 。 


好 消息 是 这 个 函数 的 调用 开销 很 低 ， 并 且 不 需要 存储 空间 ( 除 记 住 之 外 )。” 
坏 消息 是 许多 现实 世界 的 键 集合 并 不 是 按照 它们 的 最 低位 统一 分 布 的 。 例如 ,如 
果 n=1 000， 并 且 所 有 的 键 可 能 都 有 相同 的 末 3 位 数字 (基数 10)， 也 许 是 因为 

公司 的 薪水 都 是 1 000 的 倍数 ,或 者 汽车 的 价格 都 是 以 999 结尾 ， 那 么 这 样 
所 有 的 键 都 会 被 散 列 到 同一 个 位 置 。 只 使 用 前 几 位 也 会 导致 类 似 的 问题 , 例如 电 
话 号 码 前 几 位 的 国家 《或 地 区 ) 代码 和 区 号 可 能 都 是 相同 的 。 







































































































































































































































































QD 为 了 在 类 似 字符 串 这 样 的 非 数值 数据 中 利用 这 个 思路 ， 需 要 首先 把 数据 转换 为 整数 。 例 如 ， 在 Java 
中 ，hashCode 方法 就 可 以 实现 这 样 的 转换 。 
@ 存在 比 反复 的 减法 快 得 多 的 方法 计算 上 mod m。 
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接 下 来 的 思路 是 在 应 用 求 模 操作 之 前 对 键 进 行 预 处 理 : 

1 月 =(oFE+Dmodz 
其 中 a 和 是 {1,2…,n 一 1 范围 内 的 整数 。 这 个 函数 的 调用 开销 也 很 小 ， 
有 旦 存储 需求 也 很 低 ( 只 需要 记 住 a、b 和 nn)。 如 果 a、b 和 nn 选择 得 当 ， 那 么 这 
个 函数 足以 作为 一 种 简单 、 实 用 的 原型 。 但是， 在 关键 的 代码 中 ,还 是 需要 使 用 
更 为 高 级 的 散 列 函数 ， 我 们 将 在 6.4.3 节 进 一 步 讨论 这 个 话题 。 


总 之 ， 在 散 列 函数 的 设计 中 ， 需 要 考虑 的 两 件 比 较 重 要 的 事情 如 下 。 





































































































结论 
1. 专家 发 明了 调用 开销 低 且 存储 需求 小 的 散 列 函数 ， 其 行为 类 似 于 实用 的 随 
机 未 数 。 


设计 这 样 的 散 列 函数 极端 讲究 技巧 ， 如 果 有 可 能 ， 应 该 尽量 由 专家 来 











6.3.7 ”小 测验 6.3 至 小 测验 6.5 的 答案 
小 测验 6.3 的 答案 
正确 答案 : (a)。 无 企 读者 相信 和 与 否 合 ， 只 要 有 23 个 人 在 一 个 房 | 间 里 ， 很 可 能 


就 有 两 个 人 具有 相同 的 生日 。 “我 们 可 以 进行 适当 的 概率 计算 ， 或 者 通过 一 些 简 
单 的 模拟 来 说 服 自己 相信 这 个 结论 。 
如 果 是 367 个 人 ， 那 么 有 两 个 人 具有 相同 生日 的 概率 是 100% 按 照 蚀 算 原 


理 )。 但 如 果 是 57 个 人 人， 那么 这 个 概率 大 约 是 99%。 如 果 是 184 个 人 ， 概 率 是 
99.99…% (9 的 数量 非常 多 )。 


大 多 数 人 会 觉得 这 个 答案 出 人 意料 ， 这 也 是 这 个 例子 被 称 为 “生日 悖 论 ” 的 


















































































































































QD 在 一 个 不 那么 学 完 气 的 酒会 上 ， 要 玩 这 种 猜 相 同 生日 的 游戏 ， 人 数 可 以 多 一 点 ， 例 如 最 好 是 有 35 个 人 。 
@ “人 悖 论 ” 这 个 词 在 这 里 用 于 命名 有 点 不 恰当 ， 因 为 这 里 不 存在 逻辑 上 的 不 一 致 ， 只 不 过 大 多 数 人 对 出 
现 相 同 生日 的 概率 缺乏 良好 的 直觉 而 已 。 


可 























































































































YN *6.3 实现 的 高 层 思路 








原因 。 按 照 更 通常 的 说 法 ， 在 一 颗 每 年 有 大 天 的 行星 上 ， 在 @( Vk) 个 人 中 就 有 











50% 的 概率 出 现 两 人 的 生日 相同 。? 
小 测验 6.4 的 答案 























正确 答案 :〈(d)。 如 果 用 链 地 址 法 解决 冲突 ， 那 么 散 列 函数 及 把 S 中 的 每 个 
对 象 散 列 到 同一 个 桶 bucket0 中 。 此 时 ， 散 列表 就 退化 为 简 




















Lookup 所 需要 的 时 间 是 8@(|S| )。 














单 的 链表 解决 方案 ， 


如 果 采 用 开放 地 址 法 ,就 假设 散 列 法 使 用 了 线性 探查 (对 于 类 似 双重 散 





列 这 样 的 更 为 复杂 的 策略 ， 情 况 也 是 如 此 )。 



































ls 中 的 第 1 个 对 象 幸运 地 被 分 

















配 到 数组 的 位 置 0， 下 一 个 对 象 被 分 配 到 位 置 1， 接 下 来 以 此 类 推 。Lookup 

















操作 退化 为 在 一 个 未 排序 的 数组 中 对 前 |S| 个 位 置 进 行 线性 搜索 ， 需 要 @(|S|) 





的 时 间 。 
小 测验 6.5 的 答案 
正确 答案 : (c)、(d)。 从 已 到 {0,1.2,… 




















长 度 为 | 忆 的 查找 表 ， 表 中 每 个 元 素 具 有 log> 妹 个 位 。 当 全 旨 



































,n 一 1} 的 一 个 随机 函数 相当 于 一 人 





全 和信 








极为 庞大 (在 大 











多 数 应 用 中 均 是 如 此 ) 时 ， 写 出 一 个 这 样 的 函数 或 者 对 它 进行 求 值 是 不 切实 








际 的 。 














我 们 可 以 尝试 在 “需要 时 才 了 解 ”的 基础 上 定义 散 列 函数 ,在 第 1 次 遇 到 键 








天 时 为 1 有 昌 分 配 一 个 随机 值 。 


























但 是 , 接 下 来 对 h( 有 ) 的 求 值 首 先 就 要 求 检查 它 是 否 已 经 被 定义 。 这 就 归结 于 








对 大 的 查找 ， 也 是 我 们 需要 解决 的 问题 ! 




















@ 原因 是 n 个 人 并 不 是 表示 出 现 相同 生日 只 有 次 机 会 ， 
































而 是 是 有 | ?> 
2 








n2 
pe 


2 











个 机 会 (每 一 对 人 都 有 一 





个 机 会 )。 两 个 人 具有 相同 生日 的 概率 是 Wk， 因 此 当 冲 突 机 会 的 数量 大 约 为 上 ( 当 n=B@( VE)) 时 ， 





























就 开始 能 够 看 到 冲突 的 发 生 。 
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*6.4 更 多 的 实现 细节 





本 节 适 合 希 望 从 头 实现 自 定义 散 列 函 数 的 读者 。 散 列表 的 设计 不 存在 “万 能 
良 方 ” 因 此 我 只 能 提供 一 些 高 层 的 指导 原则 。 在 设计 散 列表 时 ， 重 要 的 方针 是 
管理 散 列表 的 负载 、 使 用 一 个 经 过 良好 测试 的 现代 散 列 函数 以 及 测试 几 个 候选 实 
现 ， 以 确定 适合 自己 的 特定 应 用 的 实现 。 


6.4.1 负载 和 性 能 


随 着 散 列 表 所 存储 的 对 象 的 不 断 增 加 , 它 的 性 能 也 随 之 下 降 。 采 用 链 地 址 法 ， 
桶 的 列表 变 得 越 来 越 长 ， 采 用 开放 地 址 法 ， 找 到 一 个 空 槽 变 得 越 来 越 难 。 




















































































































散 列 表 的 负载 
我 们 通过 负载 来 测量 散 列 表 的 负荷 ， 
散 列表 的 负载 = 企 储 的 对 象 的 数量 (6.1) 





数组 长 度 n 


例如 , 在 一 个 采用 链 地 址 法 的 散 列表 中 , 它 的 负载 就 是 散 列 表 中 其 中 一 个 桶 
所 包含 的 平均 对 象 数量 。 



























































小 测验 6.6 
下 面 哪 种 散 列 表 策 略 适合 大 于 1 的 负载 ? 
(a) 链 地 址 法 和 开放 地 址 法 均 可 行 
(b ) 链 地 址 法 和 开放 地 址 法 均 不 可 行 。 
(c) 只 有 链 地 址 法 可 行 。 
(d) 只 有 开放 地 址 法 可 行 。 
(正确 答案 和 详细 解释 参见 6.4.5 节 。) 











为 mw， 力 


[=] 
Hh 
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所 
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采用 链 地 址 法 的 理想 负载 








在 采用 链 地 址 法 
的 长 度 而 变化 。 在 最 佳 场景 中 ， 散 列 函 数 把 对 象 均匀 散布 























P 么 这 种 理想 化 的 场景 中 每 个 桶 最 多 有 [&] 个 对 象 。 比 8 





*6.4 


























加 





采用 开放 地 址 法 的 理想 负载 














作 的 运行 时 间 为 O(| c])。 只 要 叶 O(D)， 它 们 就 是 常数 时 间 级 的 操作 。? 
良好 的 散 列 函数 把 大 多 数 数据 集 大 致 均匀 地 散布 于 各 个 桶 中 , 因此 这 
性 能 与 实际 的 基于 链 地 址 法 的 散 列表 实现 是 能 够 匹配 的 (前 提 是 


函数 以 及 非 变态 的 数据 集 )。 


在 采用 开放 地 址 法 的 散 列 表 中 ，Lookup 或 Delete 操作 的 运行 





更 多 的 实现 细节 





的 散 列 表 中 ，Lookup 或 Delete 操作 的 运行 时 间 随 着 桶 列表 
F 各 个 桶 中 。 如 果 负 载 
对 Lookup 或 Delete 





















































下 

最 佳 场景 

采用 良好 的 散 列 
时 间 随 着 





寻找 一 个 空 槽 或 待 查找 对 象 所 需要 的 时 间 而 变化 。 见 表 6.3， 当 散 列 表 的 负 


载 是 co 时 , 它 的 槽 位 有 vc 已 经 被 填 满 , 剩余 的 1-cw 仍 然 是 空 的 。 在 最 佳 场景 中 ， 


每 次 探查 都 与 散 列表 的 ， 具 有 1-w 的 机 会 找到 一 个 空 槽 。 
























































内 容 无 关 


@ [x| 这 种 记 法 表示 “天 花 板 ”函数 ， 它 把 参数 向 上 取 整 为 最 接近 的 整数 。 


@ 我 们 之 所 以 不 大 其 烦 地 

时 间 总 是 Q(1)， 无 论 g 有 多 小 。 如 果 没 有 其 他 情况 ， 那 么 总 是 只 需要 调 
也 可 以 用 OUL+ow 的 写法 代替 O(| c |)。 

面 是 向 数学 基础 较 好 的 读者 提供 的 更 多 数学 上 的 论证 。 良 好 的 散 列 函 数 对 
仿 ， 因 此 我 们 向 前 迈 出 一 步 ， 假 设 散 列 函数 h 统一 按照 随机 的 方式 独立 
个 桶 之 一 。( 关 于 这 种 启发 式 假设 的 更 多 细节 ， 参 见 6.6.1 节 。) 假设 所 有 对 
键 k 由 有 映射 到 位 置 i。 根据 我 们 的 假设 ,对 于 散 列 表 中 的 
率 是 1/n。 在 数据 集 5 的 总 共 |SI 个 键 中 , 与 





























在 这 种 理 

























































































































































































了 解 的 负载 a。(》 














解 蓝图 ”。) 因此， 一 个 键 值 为 











技术 上 说 ， 这 个 结论 遵循 了 线性 期 望 值 以 及 本 系列 














图 书卷 1 中 5.5 














的 对 象 的 Lookup 操作 的 期 望 运行 时 





间 





写成 O([w] ) 而 不 是 O(@)， 只 是 为 了 处 理 a 搂 近 于 0 的 情况 。 每 个 操作 的 运行 
1 次 散 列 函数 。 另 多 





， 我 们 








随机 函数 的 行为 进行 了 模 
也 把 每 个 键 分 配给 散 列表 的 
} 象 的 键 都 是 不 同 的 ， 并 
其 他 每 个 键 ，h 把 也 映射 到 位 置 i 的 概 
享 同 一 个 桶 的 预期 键 数 是 |SVn， 这 个 数量 也 就 是 我 们 所 











且 











节 所 描述 的 “分 


是 [z] 
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第 6 章 


想 化 的 场景 中 ， 需 要 的 预期 探查 数量 是 
70%， 那 么 所 有 操作 的 理想 化 运行 时 


散 列 表 和 布 隆 过 流 器 上 








1 


一 C 





。" 如 果 wx 与 1 相隔 较 远 ， 例 如 


























间 是 0(1)。 这 种 最 佳 场 景 的 性 能 与 采用 


























双重 散 列 或 其 他 高 级 探查 序列 的 实际 散 列 表 实 现 大 致 是 匹配 的 。 如 果 使 用 线 





贤 




































































性 探查 ， 那 么 对 象 可 能 会 聚集 在 连续 的 槽 位 中 ， 这 会 导致 更 长 的 操作 时 间 ， 
即使 在 理想 化 的 场景 中 大 约 也 需要 一 。 只 要 显著 地 少 于 100%， 这 仍 
eA 

然 是 一 种 0(1) 级 的 操作 。 
表 6.3” 散 列表 的 理想 化 性 能 与 负载 a 的 关系 及 其 冲突 解决 策略 9 
冲突 解决 策略 Lookup 的 理想 化 运行 时 间 
链 地 址 法 ol a)) 
双重 散 列 o 志 
l—a 
维 性 欣 全 
ep 


6.4.2 





管理 散 列 表 的 负载 



































插入 和 删除 操作 会 改变 式 (6.1) 中 的 分 子 ， 散 列表 的 实现 应 该 对 分 子 进行 








更 新 以 保持 步调 。 一 个 实用 的 经 验 是 定期 更 改 散 列表 的 数组 长 度 , 使 散 列 表 的 负 





载 保持 在 70% 以 下 或 更 低 ， 取 决 于 应 用 以 及 所 采用 的 冲突 解决 策略 )。 然 后 ， 


















































在 散 列 函数 选择 得 当 以 及 非 变态 数据 集 的 前 提 下 , 大 多 数 常 见 的 冲突 解决 策略 一 








(D 这 有 点 类 似 抛 硬币 试验 : 如 果 一 枚 硬币 有 的 概率 正面 朝 上 , 在 第 1 次 看 到 硬币 的 正面 之 前 平均 需要 


























抛掷 多 少 次 ? 《对 于 我 们 来 说 ，p=1-w。) 正如 本 系列 图 书卷 1 中 6.2 节 所 述 (或 在 网 络 中 搜索 “几何 











随机 变量 ”)， 其 答案 是 1。 








p 
































@ 这 个 看 上 去 极 不 明显 的 结果 最 初 来 自 算法 分 析 之 父 Donald E. Knuth。 他 对 此 留 有 深刻 印象 :“ 我 最 早 
是 在 1962 年 对 下 面 这 个 引申 结论 进行 了 益 述 …… 事 实 上 ， 正 是 从 那个 时 候 开 始 ， 对 算法 的 分 析 成 了 
我 生活 的 主题 。”[Donald E. Knuth,“The Art of Computer Programming”(《 计 算 机 编程 的 艺术 》) 第 3 













































































卷 ， 第 2 版 ，Addison-Wesley，1998， 第 536 页 ]。 
G@ 关于 不 同 冲突 解决 策略 的 性 能 如 何 因 散 列表 的 负载 而 异 的 更 多 细节 , 可 以 观看 www ,algorithmsilluminated. org 
































中 的 相关 视频 。 








般 能 实现 常数 时 间 级 的 散 列 表 操作 。 























N *6.4 更 多 的 实现 细节 





更 改 数组 长 度 的 简单 方法 是 记录 散 列表 的 负载 ， 当 它 到 达 70% 时 把 桶 的 数 





量 n 扩充 一 倍 。 然后， 所 有 的 对 象 重新 散 列 到 这 个 新 的 、 更 大 的 散 列 表现 在 它 
另外 ， 如 果 一 连 串 的 删除 操作 导致 散 列 表 的 负载 太 低 ， 那 么 也 





的 负载 是 35%)。 


可 以 相应 缩小 散 列表 的 数 旨 












































以 节省 空间 (所 有 剩余 的 对 象 重新 散 列 到 这 个 更 小 的 











散 列 表 中 )。 这 种 更 改 数组 大 小 的 操作 比较 费时 ， 但 在 绝 大 多 数 应 用 中 ， 并 不 需 
要 经 常 执行 这 种 操作 。 


6.4.3 ”选择 散 列 水 数 





设计 良好 的 散 列 函数 是 一 门 既 困难 



































上 去 非常 合理 的 散 列 函数 ， 
能 不 佳 。 由 于 这 个 原因 ， 














幸运 的 是 ,一 


可 用 的 散 列 函数 ， 
我 们 应 该 使 























得 到 11 种 不 同 的 答案 
的 效果 , 因此 我 们 应 该 在 自己 的 特定 应 


数 的 性 能 进行 比 
的 散 列 函数 包括 
非 加 密 的 散 列 函 
见 第 158 页 的 脚 
比 非 加 密 散 列子 
一 个 良好 起 点 是 




















(D MDS5 最 初 设计 时 作为 一 种 加 密 散 列 函数 ， 但 现在 不 再 













































































我 不 建议 读者 从 零 ] 
些 聪 明 的 程序 员 已 经 为 我 们 设计 了 一 些 经 过 充分 测试 并 且 公 开 
供 我 们 在 自己 的 工作 中 使 用 。 
哪个 散 列 函数 呢 ?” 向 10 名 程序 员 询 问 这 个 问题 ， 至 少 会 
。 由 于 不 同 的 散 列 函数 在 不 同 的 数据 分 布 中 具有 不 同 




















又 神秘 的 艺术 。 我 们 很 容易 设计 出 一 些 看 
但 实际 上 它们 存在 一 些微 妙 的 缺陷 ,导致 散 列表 的 性 
于 始 设计 散 列 函数 。 

































































i 和 运行 环境 中 对 儿 种 先进 的 散 列 函 














较 。 在 本 书写 作 之 时 (2018 年 )， en 





FarmHash、MurmurHash3、SpookyHash 和 MD5。 这 些 都 是 
因此 它们 在 设计 时 并 没有 考虑 像 Crosby 和 Wallach〈( 参 


数 


























注 四 这 样 的 恶意 攻击 。) 2 加 密 的 散 列 函数 更 为 复杂 ， 速 度 相 
数 也 要 慢 一 些 ， 但 它 能 够 防御 上 述 攻 击 。” 这 类 散 列 函数 的 
散 列 函数 SHA-1 以 及 像 SHA-256 这 样 的 更 新 版 本 。 



































其 碟 安全 


问题 。 











@ 所 有 的 散 列 函数 



































其 至 包括 加 密 散 列 函数 ) 都 存在 变态 数据 集 的 问题 (6.3.6 节 )。 加 密 散 列 函 数 具 有 














特殊 的 属性 ,通过 计算 的 方式 对 变态 数据 集 进 行 反 向 了 



































方式 对 大 整数 进行 分 解 以 破坏 RSA 公 钥 加 密 系统 。 

















[ 程 是 不 可 行 的 , 其 原理 类 似 于 无 法 通过 计算 的 
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6.4.4 选择 冲突 解决 策略 


对 于 冲突 解决 , 链 地 址 法 和 开放 地 址 法 哪 种 更 好 ? 在 采用 开放 地 址 法 时 , 是 
使 用 线性 探查 、 双 重 散 列 还 是 其 他 技巧 呢 ? 与 往常 一 样 ， 当 我 展示 一 个 问题 的 多 
个 解决 方案 时 ， 答 案 总 是 “取决 于 具体 情况 ”。 例 如 ， 链 地 址 法 所 需要 的 空间 要 
大 于 开放 地 址 法 (用 于 存储 链表 中 的 指针 )， 因 此 在 空间 需求 是 优先 考虑 因素 的 
场合 中 , 后 者 可 能 更 为 合适 。 删除 操 作 在 开放 地 址 法 中 要 比 在 链 地 址 法 中 更 为 复 
杂 ， 因 此 在 需要 大 量 删 除 的 场合 必然 更 适合 采用 链 地 址 法 。 


将 线性 探查 与 更 复杂 的 开放 寻 址 实现 《如 双重 散 列 ) 进行 比较 也 并 不 简单 。 
由 于 线性 探查 会 在 散 列表 中 形成 更 大 的 连续 对 象 块 ， 因 此 比 更 高 级 的 方法 需要 更 
多 的 探查 。 但是, 这 种 成 本 很 容易 被 它 与 运行 环境 的 内 存 层次 结构 的 友好 交互 所 
抵消 。 与 选择 散 列 函数 一 样 ， 对 于 任务 关键 的 代码 , 没有 什么 可 以 蔡 代 编写 多 个 
相互 竞争 的 实现 并 查看 哪个 实现 最 适合 您 的 应 用 程序 。 


6.4.5 小 测验 6.6 的 答案 


正确 答案 :(c)。 由 于 采用 开放 地 址 法 的 散 列 表 在 每 个 数组 位 置 最 多 只 存储 
1 个 对 象 ， 因 此 它们 的 负载 绝 不 可 能 超过 1。 当 负载 为 1 时 ， 就 不 可 能 再 插入 任 
何 对 象 。 
在 采用 链 地 址 法 的 散 列 表 中 , 可 以 插入 任意 数量 的 对 象 , 尽管 散 列 表 的 性 能 
会 随 着 插入 对 象 数量 的 增加 而 下 降 。 例 如 ， 如 果 负 载 是 100， 则 一 个 桶 列表 的 平 
均 长 度 也 是 100。 
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6.5 布 隆 过 滤器 的 基础 知识 




















布 隆 过 滤器 是 散 列表 的 “近亲 ”。“ 它 具有 极 高 的 空间 效率 ,但 作为 代价 ， 它 











(QD 根据 它 的 发 明 者 而 取 名 , 可 以 参阅 Burton H. Bloom 的 论文 “Space/Time Trade-offs in Hash Coding with 
Allowable Errors”(《 容 许 错误 下 散 列 码 的 空间 /时 间 权 衡 》，Communications of the ACM，1970)。 

















6.5.1 布 隆 


布 隆 过 


过 滤器 的 存在 价值 本 质 上 与 散 列 3 








NN ”6.5 布 隆 过 滤器 的 基础 知识 








间 效 率 与 假 〖 














过 滤器 支持 的 操作 





性 率 之 间 的 权衡 | 











线 。 












































我 们 能 够 快速 记忆 已 经 发 现 和 未 发 现 的 对 象 。 为 什么 我 们 要 为 另 
x 间 要 求 特别 严 苛 并 且 人 允许 偶尔 


作 





储 


人 














| 
LI 


tH 现 错误 的 场合 


与 采用 开放 








出 除 ) 操作 时 更 容易 实现 和 理解 。 


Lookup: 对 于 一 个 键 态 如 果 无 此 前 已 允 


否则 返回 “no”。 


的 数据 结构 而 








烦恼 呢 ? 因为 布 隆 过 滤器 在 空 
FP 的 性 能 要 优 于 散 列表 的 。 


也 址 法 的 散 列 























我 们 将 把 当 




















布 隆 过 滤器 支持 的 操作 


Insert: 在 布 隆 过 滤器 中 添加 一 个 新 键 上 。 


有 时 会 出 现 错误 。 本 节 讨 论 布 隆 过 滤器 适用 于 哪些 场合 以 及 它们 的 实现 方式 。6.6 


节 将 描绘 布 隆 过 滤器 的 空 


相同 : 非常 快 的 插入 和 查找 速度 , 使 


个 具有 相同 操 














下 














表 相 似 , 当 布 隆 过 滤器 只 文 持 插 入 和 查找 (不 包括 


主意 力 集中 在 这 种 情况 。 


径 被 插入 到 布 隆 过 滤器 中 , 就 返回 “yes”， 





入 
32 位 的 键 或 指向 一 个 对 象 的 指针 ! 这 
因 。 在 散 列 表 中 , 这 个 操作 返 
这 也 是 布 隆 过 滤器 的 Insert 操作 只 接收 一 个 
的 指针 ) 为 参数 的 原因 。 
与 我 们 所 讨论 的 


类 天 


或 “no” 的 









































布 隆 过 滤器 具有 极 高 的 空间 效率 。 在 一 个 : 
只 需要 8 个 位 。 这 确实 有 点 不 可 思议 ， 因 

































































现 两 种 不 同类 














返 





青 况 下 
， 但 可 


























入 的 情况 下 仍然 返回 
入 的 | 
现 假 阴性 
频率 可 以 通过 适当 地 调整 空 
错 率 大 约 为 1% 或 0.1%。 


日 “y 


型 的 错误 : 一 种 是 假 阴性 





他 所 有 数据 结构 不 同 的 是 , 布 隆 过 
生 ， 即 Lookup 在 待 查找 的 键 此 前 已 经 


型 的 用 例 中 , 布 隆 过 滤器 每 次 插 
为 8 个 位 甚至 远 远 不 足以 保存 一 个 
也 是 布 隆 过 滤器 的 Lookup 操作 只 返回 
回 指向 待 寻找 对 象 的 指针 (如 果 找 到 )。 
建 而 不 是 一 个 对 象 (或 指向 一 个 对 和 象 
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yes 














239 














十 滤器 有 时 会 

















“no” 为 一 种 是 假 E 











s”。 我 们 将 在 6.5.3 
加 性 的 形式 存在 “ 幽 
s 间 使 用 率 进 行 控制 。 























性 ， 





即 在 待 查找 的 键 此 前 
节 中 看 到 ， 基 本 的 布 隆 过 滤器 绝 不 会 出 
幽灵 元 素 ”。 6.6 节 描 述 了 假 阳性 的 出 现 
一 个 典型 的 布 隆 过 


出 错 。 








滤器 实现 的 


从 未 被 插 


已 可 





| 
| 
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Insert 和 Lookup 操作 的 运行 速度 与 散 列 表 一 样 快 。 而 且 ， 这 些 操作 保证 能 
够 在 常数 时 间 内 运行 ， 与 布 隆 过 滤器 的 实现 以 及 数据 集 无 关 。 "但 是 ， 布 隆 过 滤 
器 的 实现 和 数据 集会 影响 它 的 错误 发 生 率 。 


布 隆 过 滤器 相对 于 散 列 表 的 优势 和 劣势 总 结 如 下 。 









































布 隆 过 滤器 对 比 散 列表 


1， 优势， 空间 效率 更 高 。 

2.， 优势 : 对 于 每 个 数据 集 ， 都 能 保证 常数 级 的 操作 时 间 。 

3. 劣势 : 无 法 存储 指向 对 象 的 指针 。 

4. 劣势 : 相 比 采用 链 地 址 法 的 散 列 表 ， 布 隆 过 滤器 的 删除 操作 非常 复杂 。 
5. 劣势 : 有 时 会 出 现 假 阳 性 。 














基本 的 布 隆 过 滤器 的 成 绩 表 如 表 6.4 所 示 。 
表 6.4 基本 的 布 隆 过 滤器 支持 的 操作 以 及 它们 的 运行 时 间 











操作 运行 时 间 
Lookup OUD 1 
Insert 0O(1) 


















































注 : 已 首 符号 〈+) 表示 Lookup 操作 存在 可 控 但 非 零 的 假 阳 性 概率 。 


























布 隆 过 滤器 应 该 在 那些 能 够 充分 发 挥 其 优势 ,同时 它 的 缺点 又 不 是 特别 致命 





器 


WE 











的 场合 使 用 。 


什么 时 候 适 合 使 用 布 隆 过 滤器 


如 果 我 们 的 应 用 需要 对 一 个 动态 变化 的 对 象 集合 进行 快速 查找 ， 同 时 需要 优先 
考虑 空间 问题 ， 并 且 允 许 出 现 少量 的 假 阳 性 情况 , 这 种 情况 就 适合 使 用 布 隆 过 























(D 前 提 是 散 列 函数 的 调用 是 常数 时 间 级 的 ， 并 且 每 个 插入 的 键 占据 常数 级 的 位 数 。 






















































































6.5 布 隆 过 滤器 的 基础 知识 
6.5.2 布 隆 过 滤器 的 应 用 
接 下 来 的 3 个 应 用 需要 进行 反复 查找 , 并 且 节省 空间 是 极为 重要 的 ， 而 偶尔 


























出 现 的 假 阳 性 情况 并 不 致命 。 














拼写 检查 。 早 在 20 世纪 70 年 代 ， 布 隆 过 滤器 就 
中 的 所 有 单词 被 插入 到 一 个 布 隆 过 滤器 中 。 对 文档 ; 




















预 处 理 步 又 中 ,一 个 字 : 























的 拼写 检查 最 终 可 以 归结 为 在 文档 中 查找 每 个 单词 ， 对 该 操作 返 


























于 实现 拼写 检查 。 在 一 个 























单词 都 加 上 标志 。 











在 这 种 应 用 中 , 假 阳 
误 并 不 是 很 理想 的 情况 。 
的 ， 因 此 当时 适合 在 实现 拼写 检查 时 使 


禁用 密码 。 一 项 当前 仍然 












































但 是 ,在 20 世纪 






































普 裔 存在 的 古老 应 月 


性 对 应 于 拼写 检查 器 偶尔 接受 的 一 个 非法 单词 。 这 种 刍 

















行 
“no 2 的 所 有 





口 
































70 年 代 早期 ， 空 间 需 求 是 要 优先 考虑 








j 布 隆 过 滤器 。 









































普通 或 太 容易 猜测 的 密码 。 一 开始 ,所 有 


未 来 的 禁用 密码 可 以 根据 需要 再 行 插入 。 当 用 户 试 











系统 就 会 在 布 隆 过 滤器 中 查找 














就 要 求 用 户 尝试 一 个 不 同 的 密码 。 在 这 种 场合 , 假 阳 | 
高 (例如 最 多 不 超过 1% 或 0.1%)， 就 没有 大 碍 。 
尔 需 要 多 试 1 次 才能 找到 系统 可 以 接受 的 一 个 密码 。 























强 密码 。 性 率 不 是 很 
用 户 偶 

Internet 路 由 器 。 当 前 ， 布 降 过 滤器 上 
心 ， 即 数据 包 以 极 快 的 速度 通过 路 | 








只 要 假 R 





























的 禁 


























是 记录 禁用 密码 , 也 就 是 过 
密码 都 插入 到 一 
图 设置 或 重 置 他 们 的 密码 时 ， 











个 布 隆 过 滤器 中 。 




















j 户 所 输入 的 密码 。 如 果 Lookup 操作 返回 








- 











生 相当 于 








的 许多 专业 级 应 用 日 





器 的 地 方 。 出 于 很 多 原因 ， 路 由 器 可 能 
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快速 


























6 yes 3 


系统 所 拒绝 的 一 个 





bh 现在 Internet 的 核 
六 望 





看 它 在 过 去 所 看 到 的 东西 。 例 如 ， 路 由 器 可 能 想 在 一 个 被 阻塞 的 IP 地 址 


列表 中 查找 一 个 数据 包 的 源 IP 地 址 、 记 录 一 个 缓存 的 内 容 以 避免 伪装 的 缓存 查 





找 , 或 者 维护 统计 信息 帮助 确认 一 次 拒绝 月 
行 超级 ' 
正 是 布 隆 过 滤器 大 


6.5.3 ” 布 隆 过 滤器 的 实现 




















EE 
NT 


身手 的 场合 。 








及 务 攻击 等 。 数据 包 的 到 达 速 率 需 要 进 














观察 布 隆 过 滤器 的 幕后 工作 机 制 ， 会 发 现 它 



































决 速 的 查找 ， 而 极其 有 限 的 路 由 器 内 存 也 把 空间 需要 放 在 重要 位 置 ， 而 这 





(有 良好 的 实现 。 它 的 数据 结构 维 
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护 一 个 n 位 的 字符 串 ， 相 当 于 一 个 长 度 为 n 并 且 每 个 元 素 非 0 即 1 的 数组 4 〈 所 有 
元 素 初 始 为 0)。 这 个 结构 还 使 用 了 m 个 散 列 函 数 有 ,hp…,hn， 每 个 散 列 函数 把 所 有 
可 能 出 现 的 键 全 集 U 映射 到 数组 位 置 的 集合 {0,1,2,…,n-1} 。 参 数 m 与 布 隆 过 滤器 在 
每 次 插入 时 所 使 用 的 位 数 成 正比 ， 一 般 是 一 个 较 小 的 常数 〈 例 如 5)。” 


每 次 当 一 个 键 被 插入 到 一 个 布 隆 过 滤器 时 ，m 个 散 列 函数 中 的 每 一 个 均 会 
植 入 一 个 标志 ， 方 法 是 把 数组 4 中 的 对 应 位 设置 为 1。 


















































布 隆 过 滤器 : Insert ( 给 定 的 键 ) 
for 1=1 to mdo 
A[lhi(k)] := 1 








例如 ， 如 果 m=3 并 且 万 (9=23、1PP(D=17、ja(D=5， 那 么 插入 大 会 导致 数组 
第 5 个 、 第 17 个 和 第 23 个 位 被 设置 为 1 (图 6.5)。 




















喇 











6.5 把 一 个 新 的 键 插入 到 布 隆 过 滤器 ， 使 位 置 户 (9,…, 和 r( 昌 中 的 位 被 设置 为 1 









































(D 6.3.6 节 和 6.4.3 节 提 供 了 如 何 选择 散 列 函 数 的 指导 方针 。 第 155 页 的 脚注 @ 描 述 了 一 种 简易 的 从 一 个 
散 列 函数 推导 出 两 个 散 列 函数 的 方法 。 这 个 思路 也 可 以 用 于 从 一 个 散 列 函数 推导 出 m 个 散 列 函数 。 
男 一 种 方法 来 源 于 双重 散 列 , 通过 公式 hi(=(h(D+(i-1)-h( 有 D)mod ma， 使 用 两 个 散 列 函数 户 和 AP 来 定义 
hi,ha,***, hme 
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在 Lookup 操作 中 ， 布 隆 过 滤器 寻找 的 插入 所 留 下 的 足迹 。 








布 隆 过 滤器 : Lookup ( 给 定 的 键 大 ) 


for 1=1 to mdo 
if A[h;(k)] = 0 then 
return "no" 


return "yes" 
现在 , 我 们 可 以 明白 为 什么 布 隆 过 滤器 不 可 能 产生 假 明 性 。 当 一 个 键 被 插 
入 时 ， 相 关 的 m 个 位 被 设置 为 1。 在 布 隆 过 滤器 的 生命 周期 内 ， 位 的 值 可 能 从 0 
变 成 1， 但 绝 不 可 能 从 1 变 成 0。 因 此 ， 这 m 个 位 会 一 直 保 留 为 1。 每 次 后 续 的 
针对 大 的 Lookup 操作 保证 能 够 返回 正确 的 答案 “yes”。 


我 们 还 可 以 明白 为 什么 可 能 出 现 假 阳 性 。 假 设 m=3 并 且 4 个 键 后 、 瑟 、 局 
和 局 具有 下 面 的 散 列 值 。 











已 










































































键 有 hi 的 值 有 hh, 的 值 js 的 值 
三 23 17 5 

厂 5 48 12 

hh 37 8 17 

kh 32 23 2 














假设 我 们 在 布 隆 过 滤器 中 插入 石 、 和 ( 见 图 6.6)。 这 3 次 插入 导致 总 共 
有 9 个 位 被 设置 为 1， 包括 石 的 足迹 中 的 3 个 位 5、17 和 23)。 此 时 ， 布 隆 过 
滤器 无 法 再 判断 后 是 否 已 经 被 插入 。 即 使 后 此 前 从 来 没有 被 插入 到 过 滤器 中 ， 
针对 它 的 Lookup 操作 也 将 返回 “yes” 人 这样 就 出 现 了 假 阳性 。 

根据 常识 来 说 ， 当 我 们 增加 布 隆 过 滤器 的 大 小 n 时 , 不 同 键 的 足迹 之 间 的 重 
倒 应 该 会 减少 , 从 而 导致 更 低 的 假 阳性 率 。 但 布 隆 过 滤器 的 首要 目标 是 节省 空间 。 
有 没有 妙招 可 以 使 n 和 假 阳 性 率 同 时 I 答案 并 不 是 显而易见 的 , 需要 
一 些 数 学 分 析 ，6.6 节 将 对 此 进行 深入 讨论 




















































































































































































































是 肯定 的 。 例 如 ， 每 个 键 使 用 8 个 位 会 导致 假 阳性 的 发 生 率 一 般 大 约 为 2% 假设 选 
当 的 散 列 函数 并 且 数 据 集 是 非 变态 的 )。 
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图 6.6 ” 假 阳性 ， 布 隆 过 滤器 可 能 导致 键 的 足迹 ， 即 使 hh 从 来 没有 被 插入 























*6.6 布 隆 过 滤器 的 启发 式 分 析 









































本 贡 的 目标 是 理解 布 隆 过 滤器 的 空间 效率 和 假 阳性 率 之 间 的 量化 权衡 。 也 就 
是 说 ， 随 着 数组 长 度 的 增加 ， 假 阳性 率 的 下 降 速度 是 怎么 样 的 ? 

如 果 一 个 布 隆 过 滤器 使 用 了 一 个 长 度 为 n 位 的 数组 , 并 存储 了 一 个 键 集合 S 
(足迹 )， 则 每 个 键 所 使 用 的 存储 空间 用 位 来 表示 : 

































































四 











我 们 感 兴趣 的 情况 是 bp 明确 地 小 于 存储 一 个 键 或 一 个 指向 对 象 的 指针 所 需 
要 的 位 数 〈 一 般 是 32 位 或 更 多 )。 例 如 ,5 可 以 是 8 或 16。 


6.6.1 局 友 式 假设 


每 个 键 的 存储 空间 b 和 假 阳 性 率 之 间 的 关系 并 不 容易 猜测 。 要 得 到 比较 明确 






























































的 结论 ， 需 要 一 些 概率 计算 。 为 了 理解 它们 之 间 的 关系 ,我 们 需要 记 住 的 概率 理 
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论 是 : 两 个 独立 事件 同时 发 生 的 概率 等 于 它们 单独 
例如 ， 两 次 独立 地 抛掷 一 个 6 面 角 子 ,第 1 次 抛 出 4， 第 




















Ee 
6 6 12 





奇数 的 概率 是 


为 了 极 大 地 简化 计算 过 程 , 我 们 将 提 H 












































性 能 的 启发 式 分 析 (6.4.1 节 ) 中 所 使 用 的 假设 相同 。 








未 证 实 的 假设 


的 ， 数 组 的 元 个 位 置 都 有 相同 的 概率 。 


机 变量 。 





1. 对 于 数据 集中 的 每 个 键 keU 和布 隆 过 滤器 的 散 列 函数 hh， 


2. 对 于 所 有 的 hi( 且 ， 包 括 所 有 的 键 keU 和 散 列 函 数 有 ,hy…,hm 都 是 独立 的 随 








发 生 的 概率 的 乘积 。 


2 次 抛 出 的 数字 为 





8 两 个 未 证 实 的 假设 , 与 我 们 在 散 列表 





hi( 且 是 均匀 分 布 

















第 一 个 假设 表示 对 于 每 个 键 k、 每 个 散 列 函数 hi 以 及 每 个 数组 位 置 














de{0,1.2,…7-1}，7D=d 的 概率 正好 是 


















































这 种 分 析 称 为 “局 发 式 ” 的 原因 。 

















此 
n 
的 概率 是 这 两 个 独立 概率 的 乘积 ， 也 就 是 








列 函数 是 不 可 实现 的 《回顾 小 测验 6.5)， 因 此 我 们 实际 使 
似 随 机 ”的 函数 。 这 意味 着 在 现实 中 ， 我 们 的 启发 式 假设 是 错误 的 。 由 于 采用 了 
固定 的 散 列 函数 ， 因 此 每 个 值 六 各 是 完全 确定 的 ,不 存在 随机 














(D 关于 概率 理论 的 更 多 背景 知识 ， 可 以 阅读 “算法 讨 


# 解 ”系列 





找 关 于 离散 概率 的 内 容 。 








。 第 二 个 假设 提示 了 MD)=d 且 Me)=r 


如 果 我 们 像 6.3.6 节 的 做 法 一 样 ， 独 立地 从 所 有 可 能 的 散 列 函数 集合 中 随机 
地 选择 布 隆 过 滤器 的 每 个 散 列 函数 ， 那 么 这 两 个 假设 都 是 合理 的 。 完 全 随机 的 散 




















的 是 一 种 固定 的 “类 
























































生 。 这 也 是 我 们 把 


书 的 第 1 卷 的 附录 B 或 者 在 网 络 中 查 
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关于 启发 性 分 析 


在 错误 假设 的 基础 上 进行 的 数学 分 析 有 什么 用 处 呢 ? 在 理想 情况 
下 ， 分 析 的 结论 在 实际 情况 下 仍然 是 正确 的 ， 即 使 它 并 不 满足 启发 式 
假设 的 条 件 。 对 于 布 隆 过 滤器 ， 只 要 数据 是 非 变态 的 并 且 使 用 了 设计 
精巧 的 “类 似 随 机 ”的 散 列 函数 ， 那 假 阳 性 率 与 采用 完全 随机 的 散 列 
函数 就 是 差不多 的 。 

我 们 总 是 应 该 对 启发 式 分 析 保持 怀疑 , 并 确保 用 具体 的 实现 对 它 的 结 
论 进行 测试 . 令 人 愉快 的 是 , 实证 研究 证 实 了 布 隆 过 滤器 的 假 阳 性 率 实际 
上 与 我 们 的 启发 式 分析 的 预测 是 相符 的 。 








6.6.2 ”部 分 位 被 设置 为 1 
我 们 首先 从 一 个 基本 的 计算 开始 。 

















小 测验 6.7 
假设 有 一 个 数据 集 8 被 插入 到 一 个 布 隆 过 滤器 中 ， 后 者 使 用 了 m 个 散 列 函 数 
和 一 个 长 度 为 n 的 位 数组 。 根 据 我 们 的 启发 式 假设 ， 数 组 的 第 1 个 位 被 设置 为 1 


的 概率 是 多 少 ? 


|s| 
2 
Te 


| 引 
(b) 1 


mlS| 
be 上 


mlS| 
(d) 人 
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(正确 答案 和 详细 解释 参见 6.6.5 节 。) 

















“6.6 布 隆 过 滤器 的 启发 式 分 析 
布 隆 过 滤器 的 第 1 位 并 没有 特殊 之 处 。 从 对 称 的 角度 来 看 ， 小 测验 6.7 的 答 
案 同 时 也 是 第 7 位 、 第 23 位 或 第 42 位 被 设置 为 1 的 概率 。 
6.6.3 假 阳 性 率 


小 测验 6.7 的 答案 看 上 去 有 点 复杂 。 为 了 理 清 头绪 ， 我 们 可 以 利用 一 个 结论 ， 
即 当 x 接近 于 0 时， 人 充分 逼近 1Hx， 其 中 es2.718… 是 自然 对 数 的 底 。 只 要 绘 



















































































制 这 两 个 函数 的 图 形 ， 就 可 以 清晰 地 看 到 这 个 结论 ， 如 图 6.7 所 示 。 


exp(x) 
1+X 
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CN 
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LT 
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砚 
NS 




















对 我 们 来 说 ，x 的 相关 信和 是 x=- 上 ， 它 接近 于 0 (忽略 很 小 的 无 关 情况 )。 


n 





因此 ， 我 们 可 以 使 用 下 面 的 数量 关系 : 








mls| 
Te (e")"| 可以 看 成 1- [1 -1 
n 





我 们 可 以 进一步 把 式 子 的 左边 简化 为 : 


—mlSl/n 一 —m/b 


1 一 e = 1]-e 


A 
给 定位 为 1 时 的 概率 估计 





其 中 b= 二 表示 每 次 插入 所 使 用 的 位 数 。 
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很 好 , 但 假 阳 性 率 又 如 何 呢 ? 假 阳性 发 生 在 茶 键 上 并 不 在 $ 中 , 但 是 它 的 足 
迹 中 的 所 有 m 个 位 万 ( 虽 …:jo( 有 均 被 8$ 中 的 键 设置 为 1 的 时 候 。” 







































































于 一 个 特定 


的 位 被 设置 为 1 的 概率 大 约 是 1-e” ， 因 此 所 有 m 个 位 被 设置 为 1 的 概率 大 





约 是 : 
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A 
假 阳性 频率 估计 























(6.2) 


我 们 可 以 通过 对 2 的 极端 值 进行 研究 来 检查 这 个 估计 概率 的 准确 性 。 当 











布 隆 过 滤器 增长 到 任意 大 (b 一 wo) 并 且 越 来 越 空 时 ， 式 
来 越 趋 近 于 0， 这 也 是 我 们 所 期 望 的 (因为 当 x 趋向 于 0 时 ，e “趋向 于 1)。 反 
FE 的 估计 概率 就 比较 大 (例如 ， 当 b=m=1 时 ， 假 











过 来 说 ， 当 5 非常 小 时 ， 假 阳 怕 








阳性 率 守 63.2%)。® 











6.6.4 结束 语 


我 们 可 以 用 式 〈6.2) 的 假 阳性 频率 估计 来 理解 空间 和 准确 怡 
除 每 个 键 的 空间 b 之 外 ， 式 (6.2) 的 估计 频率 还 取决 于 到 ， 也 前 
所 使 用 的 散 列 函数 的 数量 。m 的 值 完全 是 















































布 隆 过 滤器 的 设计 者 所 控制 
































(6.2) 的 估计 概率 越 


FE 之 间 的 权衡 。 
是 布 隆 过 滤器 








的 , 因此 


为 什么 不 在 设计 时 尽量 减少 错误 的 估计 频率 呢 ? 也 就 是 说 , 只 要 b 是 固定 的 , 我 


们 就 可 以 选择 合适 的 m， 使 式 “6.2〉 的 值 最 小 化 。 微 分 可 以 



























































值 。 对 式 (6.2) 进行 求 导 ， 让 导数 为 0， 然后 求 出 m， 该 值 就 是 合适 的 
可 以 自己 进行 这 样 的 计算 ， 最终 算出 来 的 结果 (1n2)-bp 守 0.693.b 就 是 m 的 优先 选 




















择 。 这 个 值 并 非 整 数 ， 

















因此 可 以 向 上 或 向 下 取 整 , 从 而 得 到 函数 散 列 的 型 











例如 ， 当 b=8 时 ， 散 列 函 数 的 数量 m 应 该 是 5 或 6。 

















j 于 确认 合适 的 m 


ms。 我 们 


E 想 数量 。 


QD 简单 起 见 ， 我 们 假设 m 个 散 列 函数 中 的 每 一 个 把 k 散 列 到 一 个 不 同 的 位 置 (通常 情况 下 如 此 )。 
@” 除 这 两 个 启发 式 假设 之 外 ， 这 个 分 析 还 创建 了 两 个 假设 。 首先 ，e™” 并 不 正好 是 1- 二 ， 但 是 很 接近 。 



















































































之 后 ， 另 一 个 位 是 0 的 概率 要 稍微 大 一 点 , 但 非常 接近 。 两 者 都 是 真实 值 的 近似 (根据 启 
无 论 是 数学 上 还 是 经 验 上 ， 均 可 以 证 实 为 准确 结论 。 

















其 次 ， 即 使 在 我 们 的 启发 式 假设 中 ， 布 隆 过 滤器 的 两 个 不 同位 的 值 并 不 是 独立 的 ， 知 道 了 一 个 位 是 1 


发 式 假设 )， 





“6.6 布 隆 过 滤器 的 启发 式 分 析 

















现在 ， 我 们 可 以 通过 m 的 优化 选择 m=(In2):b 对 式 〈6.2) 中 的 估计 值 进行 
具体 化 ， 得 到 估计 概率 
2 (n2)b 
Eg 


这 正 是 我 们 所 需要 的 公式 ， 它 把 假 阳 性 率 的 预期 值 整理 为 一 个 我 们 更 愿意 使 
用 的 关于 空间 数量 的 函数 。" 这 个 公式 的 值 随 着 每 个 键 的 空间 b 的 增加 而 呈 指 数 
级 下 降 ， 这 也 是 能 够 同时 存在 较 小 的 布 隆 过 滤器 和 较 低 的 假 阳 性 率 的 “甜蜜 ” 空 
间 的 原因 。 例 如 ， 如 果 每 个 键 只 存储 8 个 位 (b=8)， 那 么 这 个 估计 频率 只 是 稍稍 
大 于 2%。 如 果 取 0=16， 人 情况 又 会 如 何 呢 ? (参见 问题 6.3 。) 





































































































































































































6.6.5 小 测验 6.7 的 答案 


正确 答案 : 。 我 们 可 以 把 5 中 的 键 插入 到 布 隆 过 滤器 的 过 程 看 成 往 
Re 上 性 是 相同 
的 。 由 于 布 隆 过 滤器 使 用 了 m 个 散 列 函数 , 因此 每 次 插入 对 应 于 撕 m 个 飞镖 ， 
总 共 是 mjS| 次 。 一 个 飞镖 击 中 第 i 个 区 域 对 应 于 把 布 隆 过 滤器 中 的 第 i 位 设 
置 为 1。 


根据 第 1 个 启发 式 假设 ， 对 于 每 个 键 keS 和 ie {1,2…,m}, 一 个 飞镖 击 中 第 
1 个 区 域 也 就 是 AD-0) 的 概率 是 - 。 因 此 ， 这 个 飞镖 未 击 中 第 1 个 区 域 而 击 

























































































上 有 








四 


区 域 的 概率 为 1- 一 。 根据 第 2 个 启发 式 假设 ， 不 同 的 飞镖 是 独立 的 。 因 














此 ， 每 个 飞镖 都 未 击 中 第 1 个 区 域 (对 于 每 个 键 kesS 且 e{1,2,…,m}，h( 有 ) 关 0) 








xl 




















m| mls| 
的 概率 是 (1-]】 和 下 的 概率 1 -1-1 就 是 至 少 有 1 个 飞镖 击 中 第 1 个 
n n 





域 ( 即 布 隆 过 滤器 的 第 1 位 被 设置 为 1) 的 概率 。 









































@ 按照 等 价 的 说 法 ， 如 果 我 们 对 假 阳 性 的 频率 有 一 个 目标 值 s， 则 每 个 键 的 存储 空间 至 少 应 该 是 
be144log, 二， 正如 我 们 所 预料 的 那样 ， 目 标 错 误 率 a 越 小 ， 空 间 需 求 就 越 大 。 
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6.7 ”本章 要 所 




















。 如 果 我 们 的 应 用 需要 在 一 个 不 断 变 化 的 对 象 集中 进行 快速 查找 , 那么 散 列 





表 通 常 是 适用 的 数据 结构 。 





。 散 列 表 支 持 Insert 和 Lookup 操作 , 在 某 些 情况 下 还 支持 Delete 操作 。 
于 设计 良好 的 散 列 表 和 非 变态 的 数据 集 ， 所 有 的 操作 一 般 以 0(1) 的 时 间 








运行 。 














。 散 列 表 使 用 散 列 函数 将 对 象 的 键 转换 为 数组 中 的 位 置 。 


。 在 两 个 键 后 和 大 应 用 于 散 列 函 数 户 时 ， 如 果 An =PB)， 它 们 就 晶 
冲突 。 冲 突 是 不 可 避免 的 ， 散 列表 需要 采取 策略 解决 



































法 或 开放 地 址 法 。 




















。 良好 的 散 列 函数 具有 调用 开销 低 、 存 储 空 
够 通过 把 非 变态 数据 集中 的 对 象 大 致 均匀 地 分 布 于 散 列 表 数 组 的 各 























个 位 置 来 模拟 随机 函数 。 





。 专家 们 创建 了 许多 优秀 的 散 列 函 数 ， 我 们 可 以 在 自己 的 工作 中 


使 用 它们 。 



























































间 需 求 小 等 优点 ， 它 还 能 





对 


日 现 了 
! 突 ， 例 如 链 地 址 





















































。 散 列 表 应 该 定期 更 改 大 小 ， 使 它 的 负载 一 直 较 小 “例如 小 于 70%)。 











。 对 于 关键 任务 的 代码 ,我 们 必须 对 几 
合适 的 那 种 。 


。 布 隆 过 滤器 文 持 常数 级 时 间 的 Insert 和 Lookup 操作 。 在 空 























' 候 选 散 列表 实现 进行 比较 ,选择 











接 


最 


x 间 需求 是 重 


要 考虑 因素 的 应 用 且 偶 尔 出 现 的 假 阳 性 错误 并 不 会 产生 致命 的 影响 








的 应 用 程序 中 ， 布 隆 过 滤器 更 可 取 。 








HN 6.8 章 未 习题 


6.8 章 末 习题 



































问题 6.1 下面 哪 一 个 并 不 是 设计 良好 的 散 列 函数 应 该 具备 的 属性 ? 
(a) 散 列 函数 应 该 把 每 个 数据 集 大 致 均匀 地 散布 在 它 的 范围 内 。 
(b》 散 列 函 数 应 该 很 容易 计算 (常数 级 的 时 间或 接近 常数 级 )。 
(ec 














AL 




















AL 


散 列 函数 应 该 很 容易 存储 《和 常数 级 的 空间 或 接近 和 常数 级 )。 





(d) 散 列 函数 应 该 把 大 多 数 数据 集 大 致 均匀 地 散布 在 它 的 范围 内 。 

问题 6.2 事实 上 ， 良 好 的 散 列 函数 模仿 了 随机 函数 的 黄金 准则 ， 因 此 研究 
随机 函数 所 发 生 的 冲突 是 一 件 有 趣 的 事情 。 如 果 两 个 不 同 的 键 ,keU 的 位 置 是 
独立 选择 的 ， 而 且 是 在 nn 个 数组 位 置 中 统一 随机 选择 的 (所 有 位 置 的 可 能 性 相同 )， 
那么 友和 厂 出 现 冲 突 的 概率 有 多 大 ? 

(a) 0 



















































































人 
n 


2 


(c) 一 一 一 
n(n—1) 


1 
(d) a 





问题 6.3 ”我 们 在 6.6 节 对 布 隆 过 滤器 的 启发 式 分 析 进 行 了 解释 ， 把 它 假定 为 
当 每 个 键 插入 到 过 滤器 时 使 用 8 个 位 的 空间 。 假 设 我 们 愿意 使 用 双 倍 的 空间 (每 次 
插入 时 使 用 16 位 )， 根 据 启发 式 分 析 ， 对 应 的 假 阳 性 率 会 有 什么 变化 ?假设 散 列 
表 的 数量 m 也 是 优化 设置 的 。( 选 择 正确 的 答案 。) 


(a) 假 阳 性 率 将 低 于 1%。 
(b) 假 阳 性 率 将 低 于 0.1%。 
(c) 假 阳性 率 将 低 于 0.01%。 
(d) 假 阳 性 率 将 低 于 0.001%。 
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编程 题 





问题 6.4 用 自己 喜欢 的 编程 语言 实现 6.2.2 节 提 及 基于 散 列 表 的 两 数 之 和 
问题 的 解决 方案 。 例 如 ， 我 们 可 以 生成 一 个 包含 -100 一 1004 之 间 的 100 万 个 随机 
整数 的 列表 S， 对 于 不 同 的 x, yeS 且 xty=t， 计 算 目 标 t 位 于 -10 000 一 10 000 之 
间 的 数量 。 


我 们 可 以 使 用 现 有 的 散 列 表 实 现 ， 或 者 可 以 自己 从 头 实现 。 如 果 是 后 者 ， 应 
该 采用 不 同 的 冲突 解决 策略 比较 它们 的 性 能 ， 例 如 链 地 址 法 与 线性 探查 的 比较 。 
(关于 测试 用 例 和 挑战 数据 集 ， 可 以 访问 www.algorithmsilluminated.org。) 






















































































附录 © 
快速 回顾 渐进 性 表示 法 




















附录 将 会 回顾 渐进 性 表示 法 ， 尤 其 是 大 O 表示 法 。 读 者 如 果 是 第 一 次 阅读 
这 方面 的 材料 ， 那 么 很 可 能 需要 补充 阅读 更 为 详尽 的 资料 ， 例 如 本 系列 图 书卷 1 




















的 第 2 章 或 www.algorithmasilluminated.org 上 的 对 应 视频 。 如 果 读 者 之 六 




















和 对 此 已 经 


有 所 了 解 ， 就 不 需要 强迫 自己 将 本 附录 从 头 看 到 尾 ， 只 要 根据 自己 的 需要 重 温 相应 























的 内 容 就 可 以 了 。 
1. 要 旨 























在 讨论 算法 和 数据 结构 的 时 候 ， 渐 进 性 表示 法 非常 好 地 实现 了 粒度 的 取舍 。 


它 足 够 粗糙 ， 隐 藏 了 我 们 希望 忽略 的 所 有 细节 。 这 些 细节 往往 依赖 于 体系 结构 的 


























选择 、 编 程 语言 的 选择 、 编 译 器 的 选择 等 因素 。 另 外 ， 它 又 足够 精细 ， 









































可 以 在 不 


同 层次 的 解决 问题 的 算法 之 间 进 行 有 效 的 比较 , 尤其 是 当 问 题 具 有 很 大 的 输入 的 








时 候 (输入 越 大 ， 就 越 需要 算法 的 技巧 )。 






































系统 ， 后 者 与 输入 并 不 相关 。 
在 渐进 性 表示 法 中 ， 重 要 的 概念 是 大 O 表示 法 。 根 据 常 识 来 说 ， 


是 一 个 









































eal 

















称 某 样 东西 
数 ftn) 的 Otn))， 意 味 着 后 者 是 在 ftn) 隐 藏 了 常数 因子 和 低 阶 项 之 后 所 


一 句 话 来 总 结 渐进 性 表示 法 就 是 : 隐藏 常数 因子 和 低 阶 项 , 前 者 过 于 依赖 
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剩 下 的 内 容 。 例如， 如 果 g(n)=6n logyn+6n， 则 g(n)=O(n log n)。" 大 O 表示 法 模 
据 算 法 的 渐进 性 最 坏 情况 运行 时 间 把 算法 和 数据 结构 的 操作 放 在 不 同 的 组 内 ， 例 
如 线性 时 间 (O(n)) 或 对 数 时 间 (O(log n)) 的 算法 和 操作 。 


2. 大 O 表示 法 


大 0 表示 法 关注 的 是 在 正 整数 六 1.2,… 上 所 定义 的 函数 XunD。 对 于 我 们 而 言 
Tn) 作 为 输入 长 度 n 的 一 个 函数 ， 几 平 总 是 表示 一 种 算法 或 一 个 数据 结构 操作 的 
最 坏 情况 运行 时 间 的 边界 。 







































































大 0 表示 法 (日 常 语言 版 本 ) 
7T(n) = O(fn)) 当 且 仅 当 T(n) 最 终 是 fn) 的 一 个 常数 倍 的 上 界 。 


下 面 是 大 O 表示 法 对 应 的 数字 定义 ， 也 是 我 们 在 形式 证 明 中 应 该 使 用 的 




















大 0 表示 法 ( 数学 版 本 ) 
对 于 所 有 的 T(n)= O(ftn))， 当 且 仅 当 存 在 正常 数 c 和 no， 使 
T(n)<e:ftn) (A.1) 
此 时 n>no 就 成 立 。 





























常数 c 对 “常数 倍 ” 进 行 了 量化 ， 常 数 no 对“ 最终” 进行 了 量化 。 例 如 ， 
在 图 1 中， 常数 c 对 应 于 3， 而 no 对 应 于 函数 Tn) 和 c。f(n) 的 交叉 点 。 
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区 十 
已 


当 我 们 表示 c 和 no 是 常数 时 ,意思 是 它们 并 不 依赖 于 n。 例如 ， 在 图 
1 中 , c 和 no 是 固定 的 数字 ( 像 3 或 1000)， 这 样 我 们 就 可 以 考虑 当即 变 
得 任意 大 时 (图 1 中 向 右 是 趋向 于 无 限 的 ) 式 (1) 的 情况 。 如 果 我 们 在 
一 个 所 谓 的 大 O 证 明 中 看 到 “ 取 mo=7122 或 “ 取 c=logz712” 这 样 的 说 法 ， 
就 应 该 改 蓄 易 辐 ， 从 一 开始 就 选择 与 nn 无 关 的 c 和 no。 



































QD 在 忽略 常数 因子 时 ， 我 们 并 不 需要 指定 对 数 的 底 〈 不 同 的 对 数 函 数 之 间 的 差别 仅 在 于 常数 因子 的 差别 )。 
































外 附录 快速 
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顾 渐进 性 表示 法 





























图 1 


I 








T(n) = OUn)) 时 的 图 形 。 常 数 c 对 fn) 的 “常数 倍 ” 
进行 量化 ， 常 数 no 对“ 最终” 进行 量化 






































3. 例子 


我 们 声称 ， 如 果 7(n) 是 一 个 阶 数 为 的 多 项 式 ， 则 7T(n)= O0。 因 此 , 大 O 
表示 法 确实 是 忽略 了 常数 因子 和 低 阶 项 。 

















命题 1 假设 
T(n)=an’ +.…+an+a,o 
其 中 二 0 是 个 非 负 整数 ，w 是 实数 〈 可 以 是 正 数 或 负数 )， 则 T(n)=O(m 成 立 。 
人 
理 。 简 单 起 见 ， 我 们 先 假设 这 两 个 常量 的 值 ，m 等 于 1 并 且 c 等 于 所 有 系数 的 绝 























= 地 


这 两 个 数 都 与 n 无 关 。 现 在 我 们 需要 证 明 我 们 所 选择 的 这 两 个 常量 能 够 满足 
定义 ， 意 味 着 对 于 所 有 的 n 宇 no=1， 都 有 To 入 cm。 








Q@ 记 住 ， 实 数 x 的 绝对 值 K| 在 x 宇 0 时 等 于 x， 在 x<0 时 等 于 -x。|x| 总 是 非 负 的 。 
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为 了 验证 这 个 不 等 式 ， 取 一 个 任意 正 整 数 n 宇 no=1。 我 们 需要 Tln) 的 上 界 序 
列 ， 累 计 产 生 c.n*“ 的 上 界 。 首 先 ， 我 们 采用 7(n) 的 定义 : 
T(n) = ain* +:…+an+ao 
如 果 我 们 取 右 边 每 个 系数 a; 的 绝对 值 , 那么 这 个 表达 式 只 会 变 得 更 大 。( |a, 
只 可 能 比 a; 更 大 ， 由 于 w 是 正 数 ，|a'|n' 只 会 比 an 更 大 。) 这 意味 着 












































T(n) < oj 六 +… 十 aza+|a| 





既然 系数 是 非 负 的 ， 那 么 我 们 可 以 使 用 一 种 类 似 的 技巧 把 的 不 同 乘 方 转换 
为 n 的 一 个 公共 乘 方 。 由 于 x1， 因 此 对 于 每 个 ie 10,12,… ,局 ， 天 只 会 比 严 更 
大 。 由 于 |a| 是 非 负 整数 ， 因 此 n' 更 大 。 这 意味 着 

























































































i 
a In 个 会 








T(n) < |a|n’ + 和 十 四 | 于 +|ao|n” =(lar|+…+|al|+laoD)-n’ 





=C 





对 于 每 个 n 宇 no=1， 这 个 不 等 式 都 是 成 立 的 ， 这 也 正 是 我 们 希望 证 明 的 


结论 























我 们 还 可 以 使 用 大 O 表示 法 的 定义 ， 论 证 一 个 函数 并 不 是 另 一 个 函数 的 大 
O 表示 法 。 











命题 2 如果 TUD =2wW， 则 TD 并 不 是 0(2”)。 


证 明 : 证 明 一 个 函数 并 不 是 另 一 个 函数 的 大 O 表示 法 的 方法 通常 是 反 证 
法 。 因 此 ， ee de 即 7(n) 确 实 是 0(2”)。 根 
据 大 O 表示 法 的 定义 ， 存 在 正常 数 c 和 no， 对 于 所 有 的 n 宇 n, ， 都 存在 
























































2 CH 


由 于 2” 是 正 数 ， 因 此 我 们 可 以 从 不 等 式 的 两 边 消去 2"， 引 申 出 一 个 结 
论 : 对 于 所 有 的 n 宇 n, ， 都 存在 2” 三 c。 这 个 不 等 式 很 明显 是 错误 的 : 右边 
是 个 固定 的 常数 (与 n 无 关 )， 而 左边 随 着 n 的 增 大 趋向 于 无 穷 大 。 这 就 说 
明 T (n) = 0(2”) 这 个 假设 不 可 能 是 正确 的 。 因 此 ， 我 们 可 以 得 出 结论 ，21” 
并 不 是 0(2”)。 





























































































































NN ”附录 ”快速 回顾 渐进 性 表示 法 











4. 大 0 表示 法 和 大 QB 表示 法 

到 目前 为 止 ， 大 O 表示 法 是 讨论 算法 和 数据 结构 的 操作 的 渐进 性 运行 时 间 
比较 重要 和 常用 的 概念 。 男 外 ， 还 有 两 个 与 它 关 系 密切 的 表示 法 ， 即 大 .2 表示 法 
和 大 表示 法 值得 我 们 了 解 。 如 果 大 O 表示 法 可 以 类 比 为 “小 于 或 等 于 (三 )”， 
那么 大 Q 表 示 法 和 大 OB 表示 法 分 别 可 以 类 比 为 “大 于 或 等 于 (三 )” 和 “等 于 (=)”。 

大 QQ 表示 法 的 正式 定义 与 大 O 表示 法 相似 。 按 照 文本 描述 的 形式 : 当 且 仅 
当 7T(n) 的 下 界 是 由 ftn) 的 一 个 常数 乘积 所 确定 的 ， 那 么 7T(n) 就 是 男 一 个 函数 fn) 
的 大 QO 表示 法 。 在 这 种 情况 下 ， 可 以 写成 Tn)=0Q (mn))。 与 以 前 一 样 ， 我们 使 用 
两 个 常数 c 和 no 来 量化 “常数 积 ” 和 “最 终 ”。 


































































































































































































大 QQ 表示 法 
T(n)=.Q(f(n)) 当 且 仅 当 存 在 正 整 数 c 和 no， 对 于 所 有 的 n>no， 满 足 T(n)> 
c.fn) 时 成 立 。 











大 表示 法 也 可 简称 为 9 表示 法 ， 可 以 类 比 为 “等 于 ”7T(n) =@ (tn)) 等 于 
同时 满足 7T(n) =Q0tn)) 和 7T(n) = Otn))， 相 当 于 7T(n) 最 终 被 夹 在 ftn) 的 两 个 不 同 
的 常数 积 之 间 。 

大 @ 表 示 法 
Tln) =@ (OO) 当 且 仅 当 存 在 正 整 数 cI1、c， 和 no， 对 于 所 有 的 n 宇 no， 满 足 cl : fn) 
三 Tn) 三 c.f(n) 时 成 立 。 











2 
注意 


由 于 算法 设计 师 非 常 注重 运行 时 间 的 保证 (重视 上 界 )， 因 此 他 们 更 
倾向 于 使 用 大 O 表示 法 ， 即 使 大 加 表示 法 更 为 精确 。 例 如 ， 他 们 表示 一 
个 算法 的 运行 时 间 是 O0D)， 即 使 它 很 显然 是 @ (nm) 





到 




















下 面 的 小 测验 1 检测 对 大 O 表示 法 、 大 0 表示 法 和 大 BB 表示 法 的 理解 。 
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假设 T(n) -3 + 
(a) Tl(n) = O(n) 
(b) Tl)= .0Q(n) 


(d) T(n) = O(n’) 





3n,，, 


(c) Tln) = @(0O 


性 表示 ; 


小 测验 1 


(正确 答案 和 详细 解释 如 下 。) 


下 面 哪些 说 法 是 正确 的 ? (选择 所 有 正确 的 答案 . ) 





正确 答案 : (b)、 (c)、 (d)。 














的 原因 。7(n) 是 个 习 





F 方 时 间 的 函数 。 


最 后 3 个 选项 是 正确 的 ， 读 者 应 该 很 清楚 其 中 


















































线性 项 3n 对 于 很 大 的 n 基本 没有 意义 ， 








此 我 们 可 以 期 望 Tn)= @ (mr) (选项 c) 是 成 立 的 。 这 个 结论 很 自然 地 让 我 们 推导 





出 TCD =Q(n”))， 因 





取 no=1 和 c=4 可 以 说 
明 (c)。 根 据 2 的 命题 


EE 
从 忌 





此 7T(n) =Q(n) (选项 b) 也 是 成 立 的 。 类 似 地 ，7T(n)= O(n) 提 
示 了 7T(n) = Om”)， 因 此 7(n) = Or) (选项 d) 也 是 成 立 的 。 证 明 这 些 声明 最 终 


可 以 归结 为 选择 适当 的 常数 以 满足 定义 。 例 如 ， 取 no=1 和 一 了 可 以 证 明 (b)。 





日 





FE 明 (d)。 把 这 





名 











， 可 以 通过 


























常数 (no=1, ,cz ,4 组 合 在 起 可 以 证 











反 证 法 证 明 (a〉 并 不 是 正确 的 答案 。 


























问题 1.1 
如 用 


条 件 〈d) 只 能 被 稠密 图 
问题 1.2 〈c) 。 扫 


一 条 额外 的 边 粘 在 一 起 的 完全 
所 满足 。 








条 件 (a) 和 (c) 可 以 被 一 些 稀疏 图 〈 例 如 星 


图 ) 和 一 些 稠密 图 











( 例 

















描 邻 接 和 














问题 2.1 4 种 说 法 都 是 成 立 的 。(a) 
节 的 BFS 功能 强化 版 算法 所 满足 ，(c) :1 















































2.5 节 的 TopoSort 


问题 2.2 (ec)。 需 要 O(n”) 的 运行 时 间 ， 因 
至 少 观察 一 个 邻接 矩阵 的 好 2 个 元 素 中 





法 所 满足 。 





图 ) 所 满足 。 条 件 (b) 只 能 被 稀 玻 图 所 满足 ， 


E 阵 中 与 v 相对 应 的 行 。 
由 2.3 节 的 UCC 算法 所 满足 ;(b) 由 2.2 
2.6 节 的 Kosaraju 算法 所 满足 ;，(d) 由 





























例如 可 以 通过 对 邻接 矩阵 ; 


























行 一 遍 扫 


























的 运行 时 间 )， 然 后 对 这 个 新 表示 姑 





问题 2.7 〈c)。 月 








深度 优先 的 搜索 (参见 定型 
神奇 顺序 之 后 ，GenericSearch 
拓扑 顺序 成 功 发 现 SCC。 

问题 2.8 (a)、(b)。(a) 所 进行 的 修改 并 不 会 改变 全 
顶点 的 顺序 ， 因 此 它 仍然 是 正确 的 。(b》 所 六 








OT 


考 


[ed 








的 每 一 个 。 
构建 输入 图 




















算法 的 任何 实 侦 

















为 在 最 坏 情 况 下 ， 正 确 的 算法 必须 






























































O(n ) 的 运行 时 间 是 可 以 实现 的 ， 




















邻接 列表 表示 形式 (O(n) 
式 运 行 DFS， 其 运行 时 间 为 O(m+n)=0O(n7)。 





E 时 需要 使 用 





日 Kosaraju 算法 计算 “神奇 顺序 ”的 第 1 遍 处 到 
2.7 节 的 证 明 )。 在 第 2 遍 处 到 
| 〈 包 抒 




























































































向 图 中 运行 Kosaraju 算法 。 由 于 图 和 它 的 反 向 














所 以 入 























的 论证 所 述 , 它们 无 法 产生 正确 的 














法 仍然 是 正确 的 。(Cc) 逢 








0 〈d) 所 进行 的 修改 是 等 价 的 ， 部 


中 ， 在 实现 了 顶点 的 
5 BFS) 都 可 以 按照 相反 的 


法 在 它 的 第 2 遍 处 理 时 
行 的 修改 相当 于 在 输入 图 的 反 











妈 具 有 相同 的 SCC (小 测验 2.6)， 


tC 像 上 面 对 (a) 












































法 。 这 方面 的 反例 可 以 回 











子 (尤其 是 2.6.3 节 的 讨论 )。 
问题 3.2 (b)。 两 个 2 的 不 同 平方 数 之 和 不 可 能 是 相同 的 。( 可 以 想象 一 下 





顾 第 2 章 的 演示 例 


188 























问题 3.3 (c)、(d)。(d) 之 所 以 成 立 ， 是 





条 路 径 的 长 度 至 少 不 会 短 于 己 的 长 度 。 这 也 说 明 
个 类 似 例子 显示 了 (a) 是 错误 的 ， 随 之 说 明 〈c) 是 正确 


有 1 




















































































































因 





为 当 P 只 有 1 条 边 时 ， 
了 (b) 是 销 


区 式 )。 对 于 (a) 和 (c)， 存 在 3 个 顶点 和 3 条 边 的 反面 例子 。 












































的 。 






















































































































































































误 的 。3.3.1 节 


他 每 
的 一 









































问题 3.7 “分别 在 Dijkstra 算法 的 第 4 行 和 第 6 行 ( 见 3.2.1 节 ) 中 , 用 max {len 
人),L，} 蔡 换 JenrOo)+Z， ， 用 maxfien0os),Z。} 蔡 换 Jenr(v*)+O。。 

问题 4.1 (b)、(e)。 堆 的 存在 意义 是 支持 快速 的 最 小 值 计算 ，4.3.1 节 的 
HeapSort 是 堆 的 一 个 经 典 应 用 。 把 每 个 对 象 的 键 取 反 ， 相 当 于 把 堆 转换 为 一 种 支 
持 快 速 的 最 大 值 计 算 的 数据 结构 。 

堆 一 般 并 不 支持 快速 查找 ， 除 非 恰好 是 查找 具有 最 小 键 值 的 对 象 。 

问题 4.4 (a)。 只 有 具有 最 小 键 值 的 对 象 ， 才 可 以 用 1 个 堆 操 作 提 取 。 连 续 
5 次 调用 ExtractMin 将 返回 堆 中 具有 前 5 个 最 小 键 值 的 对 象 提取 具有 中 位 键 值 
或 最 大 键 值 的 对 象 需要 线性 数量 的 堆 操作 。 

问题 4.$ 在 Dijkstra 算法 基于 堆 的 实现 〈 见 4.4.2 节 ) 的 第 14 行 ， 用 


























max {len(w*), Cs 蔡 换 len(w*)+ ny o 


节点 , 因此 从 第 0 层 到 第 i 层 总 


要 21 之 n 的 空间 ， 
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问题 5$.1 (a)。(a) 之 所 以 成 立 ， 是 因 












































中 六 是 树 的 高 度 ， 因 




















为 在 一 棵 二 叉 树 的 第 i 层 ， 最 多 有 2 个 
有 1+2+4+…+2' 志 2 让! 个 节点 。 容纳 n 个 节点 需 


此 h= .0Q(ogn)。 


(b) 对 于 平衡 二 又 搜索 树 是 成 立 的 ， 但 对 于 非 平衡 搜索 树 一 般 是 不 成 立 的 〈 见 

















因为 


信和 搜索 树 的 属性 是 不 








(d) 是 错误 的 ， 















































使 用 有 序数 组 而 不 是 平衡 二 又 
















































































容 的 (参见 第 $.3.1 节 )。 


Ei 





因为 当 对 象 集合 为 静态 存储 不 需要 插入 或 删除 时 ， 应 该 优先 
搜索 树 (参见 5.2 节 )。 




















此 总 


问题 6.1 〈a)。 变 态 数据 集 显 示 了 属性 〈a) 是 不 可 能 实现 的 《参见 
节 )。 另 外 3 个 属性 可 以 由 先进 的 散 列 函数 所 满足 。 

问题 6.2(b)。k 的 位 置 有 n 种 可 能 性 ，ho 的 位 置 也 及 种 可 能 性 ， 基 
共有 zw 个 结果 。 在 这 些 结果 中 ，h 和 厂 正 好 及 次 冲突 的 可 能 ， 也 就 是 它们 同 





时 被 分 配给 第 
(概率 均 为 二 )， 

















1 








1 





n 


因此 发 生 冲 突 的 概率 是 4. 十 =。 


n 














1 个 位 置 、 第 2 个 位 置 等 情况 。 由 于 每 个 结果 的 可 能 性 是 相同 的 


算法 详解 ( 卷 2 ) 


一 一 图 算法 和 数据 结构 







































































算法 是 计算 机 科学 的 核心 与 灵魂 。 算 法 的 应 用 范围 极 广 , 网 络 路 由 、 计算 基因 组 学 、 公 钥 密码 学 和 
数据 库 系统 等 的 实现 都 需要 算法 。 研究 算 法 可 以 帮助 我 们 成 为 更 优秀 的 程序 员 , 可 以 让 我 们 具 
续 密 的 思维 , 并 成 功 应 对 各 种 技术 面试 。 






































































































































































































































































































































这 是 一 本 非常 容易 上 手 的 算法 入 门 图 书 , 它 可 作为 程序 员 的 学 习 用 书 , 也 适合 想 要 学 习 算 法 和 想 提 
升 算法 思维 能 力 的 读者 阅读 。 

本 书 主要 包括 以 下 内 容 : 

“图 的 搜索 和 应 *。 散 列 表 

“。 最短 路径 算法 “ 布 隆 过 滤器 

*。 推 。 搜 索 树 





















































其 姆 . 拉夫 加 登 (Tim Roughgarden ) 是 斯 坦 福 大 学 计算 机 科学 系 的 教授 ， 也 是 该 校 管 理科 学 
和 工程 系 的 客座 教授 ， 他 从 2004 年 开始 教授 和 研究 算法 。 本 书 是 他 的 《算法 详解 》 四 部 曲 的 
卷 ， 基 于 他 从 2012 年 开始 定期 举行 的 在 线 算法 课程 编写 。 
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